powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Структура PDF-файла формата "Text under image" - как можно выдрать текст?
5 сообщений из 5, страница 1 из 1
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
    #37037280
Pavel Berezin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Есть файл, полученный с OCR-распознавалки типа Файнридера. Сверху оригинальная картинка, под ней распознанный текст, который можно копипастить.
Не встречал кто алгоритм разбора такого файла собственно на распознанный текст и всё остальное? Бесплатные утилиты, встерчающиеся в сети, все понимают только картиночную часть, которая сверху. А хотелось бы программно подлезть к тексту под картинкой.
...
Рейтинг: 0 / 0
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
    #37037392
chpasha
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
не уверен, что точно понял, что вам надо. в яве например есть библиотеки для экспорта PDF в текст (pdfbox). почти наверняка есть аналогичное и в других языках.
...
Рейтинг: 0 / 0
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
    #37037400
Gwa
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дык.. Вот copy-paste и подлезайте..
...
Рейтинг: 0 / 0
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
    #37037556
otzi
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
http://itextpdf.com/ умеет "всё".
...
Рейтинг: 0 / 0
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
    #37037620
miksoft
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Pavel BerezinЕсть файл, полученный с OCR-распознавалки типа Файнридера.у распозновалки на выходе PDF?
обычно PDF бывает на входе...
...
Рейтинг: 0 / 0
5 сообщений из 5, страница 1 из 1
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Структура PDF-файла формата "Text under image" - как можно выдрать текст?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]