powered by simpleCommunicator - 2.0.56     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Парсер PDF файлов.
15 сообщений из 15, страница 1 из 1
Парсер PDF файлов.
    #38598884
Vitell
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ребят, задумка такая есть PDF парсить. Тема понятно, что заезжена, но тем не менее. Нам МТС присылает отчет по телефонным звонкам в формате PDF. А надо из него как правило всего ничего. Телефон, сумму.
Так вот порыв инет и гугл нашел множество библиотек как платных так и нет. Платные на пробный период урезаны и не могу допустим даже открыть файл с более чем 10 страницами. А бесплатные дико косячат и не читают больше половины.
Может кто пробовал делать подобную задачу?
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38598893
Фотография pation
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vitell,

вариант 1:у мтс достаточно денег на платный
2: скажи чтоб отчёт в экселе слали
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38598918
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В экселе МТС "не умеет",
но умеет в XML и HTML
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38598926
Фотография pation
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Изопропил,

XML проси
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38598938
Vitell
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Неа. Шлют лесом. Я PDF-то кое как выпросил
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38598979
ShSerge
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
VitellРебят, задумка такая есть PDF парсить. Тема понятно, что заезжена, но тем не менее. Нам МТС присылает отчет по телефонным звонкам в формате PDF. А надо из него как правило всего ничего. Телефон, сумму.
Так вот порыв инет и гугл нашел множество библиотек как платных так и нет. Платные на пробный период урезаны и не могу допустим даже открыть файл с более чем 10 страницами. А бесплатные дико косячат и не читают больше половины.
Может кто пробовал делать подобную задачу?
А эти самые "всего ничего", т.е. телефон и сумму не ввести ручками?
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38599072
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
pationИзопропил,

XML проси
я не топикстартер, у меня всё есть
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38599171
dvim
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Vitell,

Мы используем Pdf2text И его вариации.
А потом просто парсим текст.
Оказалось проще изобрести алгоритм, вытаскивающий из сырого куска текста нужные данные.
Мы парсим коносаменты. Из документов "не картинок" распознавание нужных данных доведено до 99%.

Для вашей задачи, имхо, это подойдет.
В последней версии заменили pdf2text на iTextSharp. (Точнее используем оба конвертера в текст и сравниваем результаты. Но это - от необходимости читать pdf от десятков фирм)
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38599260
ZhV
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть такой OpenSource проект SumatraPDF
В этом проекте есть библиотека libmupdf.dll
В ней много чего есть полезного
Я, в частности, пользовал функцию получения постраничного изображения pdf-документов
Там есть и про извлечение текста - но мне было не надобно, поэтому в детали не вникал

http://www.codeproject.com/Articles/498317/Rendering-PDF-Documents-with-Mupdf-and-P-Invoke-in

Можно еще поискать по ключу "libmupdf.dll"
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38599299
dvim
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ZhV,
Так что он дает?
Из информации полезной ТС - только текст. Мои тесты на тысячах pdf выявили 2 лидеров.
К сожалению найти свободные библиотеки , которые могут таблицу вернуть мне не удалось.
И есть ли они - большой вопрос.
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38599337
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dvimИ есть ли они - большой вопрос.
это задача для искуственного интеллекта,
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38599351
dvim
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Изопропил,

Ну вообще finereader компонента очень хорошо распознает - но... не бюджет.
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38600069
jenya7
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
iTextSharp наше все.
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38600434
Vitell
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Попользовал ITextSharp. В принципе нормально. Текст гораздо проще пилить.
Спасибо.
...
Рейтинг: 0 / 0
Парсер PDF файлов.
    #38601611
Vitell
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Похвастаюсь.
Сделал прикольно. МТС теперь шлют файл на почту списку SharePoint. Тот парсит и пишет в базу из базы всё летит в удержание с зар.платы. Красатаааа. Рад. Всем спасибо!
...
Рейтинг: 0 / 0
15 сообщений из 15, страница 1 из 1
Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / Парсер PDF файлов.
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]