Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Структура PDF-файла формата "Text under image" - как можно выдрать текст? / 5 сообщений из 5, страница 1 из 1
27.12.2010, 15:51
    #37037280
Pavel Berezin
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
Есть файл, полученный с OCR-распознавалки типа Файнридера. Сверху оригинальная картинка, под ней распознанный текст, который можно копипастить.
Не встречал кто алгоритм разбора такого файла собственно на распознанный текст и всё остальное? Бесплатные утилиты, встерчающиеся в сети, все понимают только картиночную часть, которая сверху. А хотелось бы программно подлезть к тексту под картинкой.
...
Рейтинг: 0 / 0
27.12.2010, 16:42
    #37037392
chpasha
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
не уверен, что точно понял, что вам надо. в яве например есть библиотеки для экспорта PDF в текст (pdfbox). почти наверняка есть аналогичное и в других языках.
...
Рейтинг: 0 / 0
27.12.2010, 16:46
    #37037400
Gwa
Gwa
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
Дык.. Вот copy-paste и подлезайте..
...
Рейтинг: 0 / 0
27.12.2010, 17:49
    #37037556
otzi
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
http://itextpdf.com/ умеет "всё".
...
Рейтинг: 0 / 0
27.12.2010, 18:32
    #37037620
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
Pavel BerezinЕсть файл, полученный с OCR-распознавалки типа Файнридера.у распозновалки на выходе PDF?
обычно PDF бывает на входе...
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Структура PDF-файла формата "Text under image" - как можно выдрать текст? / 5 сообщений из 5, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]