|
|
|
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
|
|||
|---|---|---|---|
|
#18+
Есть файл, полученный с OCR-распознавалки типа Файнридера. Сверху оригинальная картинка, под ней распознанный текст, который можно копипастить. Не встречал кто алгоритм разбора такого файла собственно на распознанный текст и всё остальное? Бесплатные утилиты, встерчающиеся в сети, все понимают только картиночную часть, которая сверху. А хотелось бы программно подлезть к тексту под картинкой. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2010, 15:51 |
|
||
|
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
|
|||
|---|---|---|---|
|
#18+
не уверен, что точно понял, что вам надо. в яве например есть библиотеки для экспорта PDF в текст (pdfbox). почти наверняка есть аналогичное и в других языках. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2010, 16:42 |
|
||
|
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
|
|||
|---|---|---|---|
|
#18+
Дык.. Вот copy-paste и подлезайте.. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2010, 16:46 |
|
||
|
Структура PDF-файла формата "Text under image" - как можно выдрать текст?
|
|||
|---|---|---|---|
|
#18+
http://itextpdf.com/ умеет "всё". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2010, 17:49 |
|
||
|
|

start [/forum/topic.php?fid=16&gotonew=1&tid=1343231]: |
0ms |
get settings: |
9ms |
get forum list: |
18ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
176ms |
get topic data: |
11ms |
get first new msg: |
6ms |
get forum data: |
2ms |
get page messages: |
53ms |
get tp. blocked users: |
1ms |
| others: | 239ms |
| total: | 521ms |

| 0 / 0 |
