Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Парсер PDF файлов. / 15 сообщений из 15, страница 1 из 1
28.03.2014, 11:05
    #38598884
Vitell
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Ребят, задумка такая есть PDF парсить. Тема понятно, что заезжена, но тем не менее. Нам МТС присылает отчет по телефонным звонкам в формате PDF. А надо из него как правило всего ничего. Телефон, сумму.
Так вот порыв инет и гугл нашел множество библиотек как платных так и нет. Платные на пробный период урезаны и не могу допустим даже открыть файл с более чем 10 страницами. А бесплатные дико косячат и не читают больше половины.
Может кто пробовал делать подобную задачу?
...
Рейтинг: 0 / 0
28.03.2014, 11:13
    #38598893
pation
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Vitell,

вариант 1:у мтс достаточно денег на платный
2: скажи чтоб отчёт в экселе слали
...
Рейтинг: 0 / 0
28.03.2014, 11:27
    #38598918
Изопропил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
В экселе МТС "не умеет",
но умеет в XML и HTML
...
Рейтинг: 0 / 0
28.03.2014, 11:30
    #38598926
pation
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Изопропил,

XML проси
...
Рейтинг: 0 / 0
28.03.2014, 11:42
    #38598938
Vitell
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Неа. Шлют лесом. Я PDF-то кое как выпросил
...
Рейтинг: 0 / 0
28.03.2014, 12:10
    #38598979
ShSerge
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
VitellРебят, задумка такая есть PDF парсить. Тема понятно, что заезжена, но тем не менее. Нам МТС присылает отчет по телефонным звонкам в формате PDF. А надо из него как правило всего ничего. Телефон, сумму.
Так вот порыв инет и гугл нашел множество библиотек как платных так и нет. Платные на пробный период урезаны и не могу допустим даже открыть файл с более чем 10 страницами. А бесплатные дико косячат и не читают больше половины.
Может кто пробовал делать подобную задачу?
А эти самые "всего ничего", т.е. телефон и сумму не ввести ручками?
...
Рейтинг: 0 / 0
28.03.2014, 13:01
    #38599072
Изопропил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
pationИзопропил,

XML проси
я не топикстартер, у меня всё есть
...
Рейтинг: 0 / 0
28.03.2014, 14:09
    #38599171
dvim
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Vitell,

Мы используем Pdf2text И его вариации.
А потом просто парсим текст.
Оказалось проще изобрести алгоритм, вытаскивающий из сырого куска текста нужные данные.
Мы парсим коносаменты. Из документов "не картинок" распознавание нужных данных доведено до 99%.

Для вашей задачи, имхо, это подойдет.
В последней версии заменили pdf2text на iTextSharp. (Точнее используем оба конвертера в текст и сравниваем результаты. Но это - от необходимости читать pdf от десятков фирм)
...
Рейтинг: 0 / 0
28.03.2014, 15:07
    #38599260
ZhV
ZhV
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Есть такой OpenSource проект SumatraPDF
В этом проекте есть библиотека libmupdf.dll
В ней много чего есть полезного
Я, в частности, пользовал функцию получения постраничного изображения pdf-документов
Там есть и про извлечение текста - но мне было не надобно, поэтому в детали не вникал

http://www.codeproject.com/Articles/498317/Rendering-PDF-Documents-with-Mupdf-and-P-Invoke-in

Можно еще поискать по ключу "libmupdf.dll"
...
Рейтинг: 0 / 0
28.03.2014, 15:34
    #38599299
dvim
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
ZhV,
Так что он дает?
Из информации полезной ТС - только текст. Мои тесты на тысячах pdf выявили 2 лидеров.
К сожалению найти свободные библиотеки , которые могут таблицу вернуть мне не удалось.
И есть ли они - большой вопрос.
...
Рейтинг: 0 / 0
28.03.2014, 16:01
    #38599337
Изопропил
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
dvimИ есть ли они - большой вопрос.
это задача для искуственного интеллекта,
...
Рейтинг: 0 / 0
28.03.2014, 16:07
    #38599351
dvim
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Изопропил,

Ну вообще finereader компонента очень хорошо распознает - но... не бюджет.
...
Рейтинг: 0 / 0
30.03.2014, 09:26
    #38600069
jenya7
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
iTextSharp наше все.
...
Рейтинг: 0 / 0
31.03.2014, 05:17
    #38600434
Vitell
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Попользовал ITextSharp. В принципе нормально. Текст гораздо проще пилить.
Спасибо.
...
Рейтинг: 0 / 0
01.04.2014, 10:32
    #38601611
Vitell
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Парсер PDF файлов.
Похвастаюсь.
Сделал прикольно. МТС теперь шлют файл на почту списку SharePoint. Тот парсит и пишет в базу из базы всё летит в удержание с зар.платы. Красатаааа. Рад. Всем спасибо!
...
Рейтинг: 0 / 0
Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Парсер PDF файлов. / 15 сообщений из 15, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]