|
|
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
Ребят, задумка такая есть PDF парсить. Тема понятно, что заезжена, но тем не менее. Нам МТС присылает отчет по телефонным звонкам в формате PDF. А надо из него как правило всего ничего. Телефон, сумму. Так вот порыв инет и гугл нашел множество библиотек как платных так и нет. Платные на пробный период урезаны и не могу допустим даже открыть файл с более чем 10 страницами. А бесплатные дико косячат и не читают больше половины. Может кто пробовал делать подобную задачу? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 11:05:45 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
Vitell, вариант 1:у мтс достаточно денег на платный 2: скажи чтоб отчёт в экселе слали ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 11:13:09 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
В экселе МТС "не умеет", но умеет в XML и HTML ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 11:27:26 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
Изопропил, XML проси ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 11:30:45 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
Неа. Шлют лесом. Я PDF-то кое как выпросил ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 11:42:24 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
VitellРебят, задумка такая есть PDF парсить. Тема понятно, что заезжена, но тем не менее. Нам МТС присылает отчет по телефонным звонкам в формате PDF. А надо из него как правило всего ничего. Телефон, сумму. Так вот порыв инет и гугл нашел множество библиотек как платных так и нет. Платные на пробный период урезаны и не могу допустим даже открыть файл с более чем 10 страницами. А бесплатные дико косячат и не читают больше половины. Может кто пробовал делать подобную задачу? А эти самые "всего ничего", т.е. телефон и сумму не ввести ручками? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 12:10:11 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
pationИзопропил, XML проси я не топикстартер, у меня всё есть ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 13:01:46 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
Vitell, Мы используем Pdf2text И его вариации. А потом просто парсим текст. Оказалось проще изобрести алгоритм, вытаскивающий из сырого куска текста нужные данные. Мы парсим коносаменты. Из документов "не картинок" распознавание нужных данных доведено до 99%. Для вашей задачи, имхо, это подойдет. В последней версии заменили pdf2text на iTextSharp. (Точнее используем оба конвертера в текст и сравниваем результаты. Но это - от необходимости читать pdf от десятков фирм) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 14:09:57 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
Есть такой OpenSource проект SumatraPDF В этом проекте есть библиотека libmupdf.dll В ней много чего есть полезного Я, в частности, пользовал функцию получения постраничного изображения pdf-документов Там есть и про извлечение текста - но мне было не надобно, поэтому в детали не вникал http://www.codeproject.com/Articles/498317/Rendering-PDF-Documents-with-Mupdf-and-P-Invoke-in Можно еще поискать по ключу "libmupdf.dll" ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 15:07:55 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
ZhV, Так что он дает? Из информации полезной ТС - только текст. Мои тесты на тысячах pdf выявили 2 лидеров. К сожалению найти свободные библиотеки , которые могут таблицу вернуть мне не удалось. И есть ли они - большой вопрос. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 15:34:54 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
dvimИ есть ли они - большой вопрос. это задача для искуственного интеллекта, ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 16:01:13 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
Изопропил, Ну вообще finereader компонента очень хорошо распознает - но... не бюджет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.03.2014, 16:07:12 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
iTextSharp наше все. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.03.2014, 09:26:41 |
|
||
|
Парсер PDF файлов.
|
|||
|---|---|---|---|
|
#18+
Попользовал ITextSharp. В принципе нормально. Текст гораздо проще пилить. Спасибо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.03.2014, 05:17:15 |
|
||
|
|

start [/forum/topic.php?fid=20&msg=38598926&tid=1403088]: |
0ms |
get settings: |
10ms |
get forum list: |
20ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
203ms |
get topic data: |
9ms |
get forum data: |
3ms |
get page messages: |
49ms |
get tp. blocked users: |
1ms |
| others: | 214ms |
| total: | 517ms |

| 0 / 0 |
