|
Выдернуть из PDF-документа таблицу и импортировать
|
|||
---|---|---|---|
#18+
Приветствую! Как лучше сделать такую задачу? Может как картинку распознать? Есть ли какие-нибудь DLL для распознавания PDF-формата? Или только платный API от Adobe? Наверное, по подписке сдают в аренду? Спасибо. ... |
|||
:
Нравится:
Не нравится:
|
|||
03.08.2021, 17:47 |
|
Выдернуть из PDF-документа таблицу и импортировать
|
|||
---|---|---|---|
#18+
Игорь1973, Есть pdf2text - вполне его и к Vb прикручивали в свое время. У вас точно vb старый... Восстановить таблицу из текста сложно - но иногда возможно. Вообще рекомендуют tabula - если текста не хватит, но надо рыть туда ... |
|||
:
Нравится:
Не нравится:
|
|||
03.08.2021, 18:05 |
|
Выдернуть из PDF-документа таблицу и импортировать
|
|||
---|---|---|---|
#18+
dvim, спасибо за ответ. Да,VB6 классика. А что значит авторВосстановить таблицу из текста где текст? Текст это ж то что надо. PDF-документ - обычная накладная приобретенные стройматериалы из Петровича. То есть там таблица содержит Название, Количество, Цена, Сумма. ... |
|||
:
Нравится:
Не нравится:
|
|||
03.08.2021, 21:02 |
|
Выдернуть из PDF-документа таблицу и импортировать
|
|||
---|---|---|---|
#18+
Игорь1973, Полно онлайн сервисов pdf2text - проверьте свой Pdf если сможете по тексту восстановить таблицу - то вперед. Если нет - tabula ... |
|||
:
Нравится:
Не нравится:
|
|||
03.08.2021, 21:10 |
|
Выдернуть из PDF-документа таблицу и импортировать
|
|||
---|---|---|---|
#18+
А, понял pdf2text выдает TXT файл с голым текстом. Табличные данные вперемешку. Но попробовать написать алгоритм вполне можно. Спасибо за наводку. ... |
|||
:
Нравится:
Не нравится:
|
|||
03.08.2021, 21:19 |
|
Выдернуть из PDF-документа таблицу и импортировать
|
|||
---|---|---|---|
#18+
Так Word умеет открывать pdf, и даже таблички там будут. Не в исходном виде, естественно, но я успешно писал парсер. Там проблема была только в том, что нужно было склеить разрывы страниц. Если разрыв страницы проходил через середину ячейки или даже через середину слова, то это оказывалось в разных ячейках разных таблиц. Но если дальнейшая задача извлечь данные, наплевав на форматирование, это вполне удобно, потому что будешь иметь дело вполне себе с объектами table/row/cell, а не с голым текстом ... |
|||
:
Нравится:
Не нравится:
|
|||
03.08.2021, 22:08 |
|
Выдернуть из PDF-документа таблицу и импортировать
|
|||
---|---|---|---|
#18+
Спасибо дорогой Shocker.Pro А начиная с какой версии Word стал это уметь? ... |
|||
:
Нравится:
Не нравится:
|
|||
03.08.2021, 23:51 |
|
|
start [/forum/topic.php?fid=60&gotonew=1&tid=2154712]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
415ms |
get topic data: |
15ms |
get first new msg: |
8ms |
get forum data: |
3ms |
get page messages: |
53ms |
get tp. blocked users: |
2ms |
others: | 302ms |
total: | 831ms |
0 / 0 |