|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
Ребят, задумка такая есть PDF парсить. Тема понятно, что заезжена, но тем не менее. Нам МТС присылает отчет по телефонным звонкам в формате PDF. А надо из него как правило всего ничего. Телефон, сумму. Так вот порыв инет и гугл нашел множество библиотек как платных так и нет. Платные на пробный период урезаны и не могу допустим даже открыть файл с более чем 10 страницами. А бесплатные дико косячат и не читают больше половины. Может кто пробовал делать подобную задачу? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 11:05 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
Vitell, вариант 1:у мтс достаточно денег на платный 2: скажи чтоб отчёт в экселе слали ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 11:13 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
В экселе МТС "не умеет", но умеет в XML и HTML ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 11:27 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
Изопропил, XML проси ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 11:30 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
Неа. Шлют лесом. Я PDF-то кое как выпросил ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 11:42 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
VitellРебят, задумка такая есть PDF парсить. Тема понятно, что заезжена, но тем не менее. Нам МТС присылает отчет по телефонным звонкам в формате PDF. А надо из него как правило всего ничего. Телефон, сумму. Так вот порыв инет и гугл нашел множество библиотек как платных так и нет. Платные на пробный период урезаны и не могу допустим даже открыть файл с более чем 10 страницами. А бесплатные дико косячат и не читают больше половины. Может кто пробовал делать подобную задачу? А эти самые "всего ничего", т.е. телефон и сумму не ввести ручками? ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 12:10 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
pationИзопропил, XML проси я не топикстартер, у меня всё есть ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 13:01 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
Vitell, Мы используем Pdf2text И его вариации. А потом просто парсим текст. Оказалось проще изобрести алгоритм, вытаскивающий из сырого куска текста нужные данные. Мы парсим коносаменты. Из документов "не картинок" распознавание нужных данных доведено до 99%. Для вашей задачи, имхо, это подойдет. В последней версии заменили pdf2text на iTextSharp. (Точнее используем оба конвертера в текст и сравниваем результаты. Но это - от необходимости читать pdf от десятков фирм) ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 14:09 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
Есть такой OpenSource проект SumatraPDF В этом проекте есть библиотека libmupdf.dll В ней много чего есть полезного Я, в частности, пользовал функцию получения постраничного изображения pdf-документов Там есть и про извлечение текста - но мне было не надобно, поэтому в детали не вникал http://www.codeproject.com/Articles/498317/Rendering-PDF-Documents-with-Mupdf-and-P-Invoke-in Можно еще поискать по ключу "libmupdf.dll" ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 15:07 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
ZhV, Так что он дает? Из информации полезной ТС - только текст. Мои тесты на тысячах pdf выявили 2 лидеров. К сожалению найти свободные библиотеки , которые могут таблицу вернуть мне не удалось. И есть ли они - большой вопрос. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 15:34 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
dvimИ есть ли они - большой вопрос. это задача для искуственного интеллекта, ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 16:01 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
Изопропил, Ну вообще finereader компонента очень хорошо распознает - но... не бюджет. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.03.2014, 16:07 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
iTextSharp наше все. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.03.2014, 09:26 |
|
Парсер PDF файлов.
|
|||
---|---|---|---|
#18+
Попользовал ITextSharp. В принципе нормально. Текст гораздо проще пилить. Спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
31.03.2014, 05:17 |
|
|
start [/forum/topic.php?fid=20&msg=38601611&tid=1403088]: |
0ms |
get settings: |
7ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
47ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
43ms |
get tp. blocked users: |
1ms |
others: | 13ms |
total: | 140ms |
0 / 0 |