
Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
27.12.2010, 15:51
|
|||
|---|---|---|---|
|
|||
Структура PDF-файла формата "Text under image" - как можно выдрать текст? |
|||
|
#18+
Есть файл, полученный с OCR-распознавалки типа Файнридера. Сверху оригинальная картинка, под ней распознанный текст, который можно копипастить. Не встречал кто алгоритм разбора такого файла собственно на распознанный текст и всё остальное? Бесплатные утилиты, встерчающиеся в сети, все понимают только картиночную часть, которая сверху. А хотелось бы программно подлезть к тексту под картинкой. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.12.2010, 16:42
|
|||
|---|---|---|---|
Структура PDF-файла формата "Text under image" - как можно выдрать текст? |
|||
|
#18+
не уверен, что точно понял, что вам надо. в яве например есть библиотеки для экспорта PDF в текст (pdfbox). почти наверняка есть аналогичное и в других языках. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.12.2010, 16:46
|
|||
|---|---|---|---|
Структура PDF-файла формата "Text under image" - как можно выдрать текст? |
|||
|
#18+
Дык.. Вот copy-paste и подлезайте.. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
27.12.2010, 17:49
|
|||
|---|---|---|---|
|
|||
Структура PDF-файла формата "Text under image" - как можно выдрать текст? |
|||
|
#18+
http://itextpdf.com/ умеет "всё". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/topic.php?fid=16&tablet=1&tid=1343231]: |
0ms |
get settings: |
4ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
14ms |
get topic data: |
6ms |
get forum data: |
1ms |
get page messages: |
21ms |
get tp. blocked users: |
1ms |
| others: | 181ms |
| total: | 241ms |

| 0 / 0 |
