|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Привет всем. Пытаюсь вытащить данные из pdf: Код: c# 1. 2. 3. 4.
но из-за того что в pdf есть endstream не удается запихнуть в string весь файл. Как быть? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:22 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
МСУiTextSharp Код: c# 1. 2.
Он берет только текст, мне нужно полностью всё вместе со спец. символами ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:27 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
StudentsОн берет только текст, мне нужно полностью всё вместе со спец. символами Какими такими спецсимволами? Зачем? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:30 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Students, ... читайте через ReadLine() в цикле "пока не %EOF" ... ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:32 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
должно получится примерно так: %PDF-1.4 %ЎіЕЧ 1 0 obj <</ArtBox[ 0 0 841.89 595.276]/BleedBox[ 0 0 841.89 595.276]/Contents 2 0 R /CropBox[ 0 0 841.89 595.276]/MediaBox[ 0 0 841.89 595.276]/Parent 71 0 R /Resources<</ColorSpace<</CS0 48 0 R /CS1 51 0 R >>/ExtGState<</GS0 228 0 R /GS1 229 0 R /GS2 5 0 R >>/Font<</C0_0 44 0 R /C2_0 43 0 R /C2_1 42 0 R /T1_0 227 0 R /T1_1 37 0 R /T1_2 226 0 R >>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</Metadata 15 0 R >>/MC1<</Metadata 16 0 R >>>>/XObject<</Fm0 38 0 R /Im0 18 0 R /Im1 20 0 R /Im2 21 0 R /Im3 23 0 R /Im4 25 0 R >>>>/Rotate 0/StructParents 0/TrimBox[ 0 0 841.89 595.276]/Type/Page>> endobj 2 0 obj <</Filter/FlateDecode/Length 3066>>stream H‰ФWЫn№}пЇагtђn±ЉЧ„l endstream мне нужно вырезать всё что находится внутри stream-endstream в отдельные куски ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:33 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Не понял, вот я открыл файл, что дальше? Какие спецсимволы, и еще ты не ответил - зачем? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:35 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Studentsмне нужно вырезать всё что находится внутри stream-endstream в отдельные куски Ну ок, получил ты вот это H‰ФWЫn№}пЇагtђn±ЉЧ„l Что дальше с этим собираешься делать? :) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:37 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
carrotikStudents, ... читайте через ReadLine() в цикле "пока не %EOF" ... бррр. В каком цикле? Код: c# 1.
... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:44 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Где ответы на вопросы? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:45 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
МСУStudentsмне нужно вырезать всё что находится внутри stream-endstream в отдельные куски Ну ок, получил ты вот это H‰ФWЫn№}пЇагtђn±ЉЧ„l Что дальше с этим собираешься делать? :) добавьте туда картинку, мультимедиа и т.п. Мне нужно найти всё, что между stream-endstream и вырезать оттуда (точнее заменить на sha256), чтобы не слать сразу 100МБ, а мультимедию с совпадающим хэшем просто оставить и не слать. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:46 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Students, .. ну так открывайте его как текстовый файл http://stackoverflow.com/questions/10563300/streamreader-and-textreader ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:53 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Studentsдобавьте туда картинку, мультимедиа и т.п. И как ты собираешься из этой строки кракозябр получить картинку? StudentsМне нужно найти всё, что между stream-endstream и вырезать оттуда (точнее заменить на sha256), чтобы не слать сразу 100МБ, а мультимедию с совпадающим хэшем просто оставить и не слать. Ничего не понял, какой-то бред... P.S. Если нужно достать картинку, для этого методы объектной модели библиотеки. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 15:54 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
я не собираюсь её туда слать. Я собираюсь подсчитать хэш и сравнить с тем, что на севрере. Если хэш тот же, то огромное видео, картинку и.т.п. апдейтить не нужно. ReadLine() и ReadToEnd() почему-то работают до пње1ґќЈЉ%љђ.4„Црh; ЖР А букву Ж не видят и останавливаются. Если этот кусок убрать, то читает до конца всё правильно. Странно. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:03 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Кто тебе сказал, что хеши будут одинаковы? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:05 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
МСУКто тебе сказал, что хеши будут одинаковы? если картинки одинаковые (не изменялись), соотвственно то, что я достал внутри stream-endstream как текст тоже будут одинаковыми ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:09 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Studentsя не собираюсь её туда слать. Я собираюсь подсчитать хэш и сравнить с тем, что на севрере. Если хэш тот же, то огромное видео, картинку и.т.п. апдейтить не нужно. ReadLine() и ReadToEnd() почему-то работают до пње1ґќЈЉ%љђ.4„Црh; ЖР А букву Ж не видят и останавливаются. Если этот кусок убрать, то читает до конца всё правильно. Странно. ...там байт нечитаемый между точкой с запятой и Ж ... тогда читать надо байтами ... ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:11 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
StudentsМСУКто тебе сказал, что хеши будут одинаковы? если картинки одинаковые (не изменялись), соотвственно то, что я достал внутри stream-endstream как текст тоже будут одинаковыми crc32 контрольная сумма будет одинаковая, но не строковое представление не пойми чего и каким алгоритмом закодированное. Вообщем делай как хочешь. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:14 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Как мне на работе сказали, так я и делаю. carrotik, как вы смогли понять, что это нечитаемый байт? Он каким-то символом обозначается? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:17 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Students, ..в HEX редакторе файл откройте .. Я не смотрел, только предположил ... ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:23 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
ясно. спасибо за ответы. Если читать байтами, то это уже не через streamreader? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:26 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
carrotikStudents, ..в HEX редакторе файл откройте .. Я не смотрел, только предположил ... Код: c# 1. 2. 3. 4. 5.
Если так прописать, то в tempString тоже записывается только до символа "Ж". можно как-то выкинуть нечитаемый байт из bytes ? ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:32 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
StudentsКак мне на работе сказали, так я и делаю. Убей их там всех об стену. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 16:34 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
Students, ... не знаю, каким должно быть правильное решение, но как вариант, читать батовый массив через ReadChar посимвольно, и проверять каждый символ на Char.IsControl (т.е. управляющий символ), и соответственно выбрасывать, а уже массив Char[] потом в строку .. Но сильно как-то это не совсем .. :) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 17:16 |
|
StreamReader pdf
|
|||
---|---|---|---|
#18+
МСУStudentsКак мне на работе сказали, так я и делаю. Убей их там всех об стену. Почему? Смотрите. Пусть в pdf есть очередной номер журнала. Человек пишет или исправляет статью. Какой смысл чекинить весь журнал на сервер, когда можно и нужно чекинить только текст. Картинки ведь не поменялись. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.08.2013, 17:19 |
|
|
start [/forum/topic.php?fid=20&fpage=151&tid=1404175]: |
0ms |
get settings: |
12ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
47ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
61ms |
get tp. blocked users: |
2ms |
others: | 324ms |
total: | 486ms |
0 / 0 |