Структура PDF-файла формата "Text under image" - как можно выдрать текст? / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Структура PDF-файла формата "Text under image" - как можно выдрать текст?

5 сообщений из 5, страница 1 из 1

Структура PDF-файла формата "Text under image" - как можно выдрать текст?

#37037280

Pavel Berezin

Гость

Есть файл, полученный с OCR-распознавалки типа Файнридера. Сверху оригинальная картинка, под ней распознанный текст, который можно копипастить.
Не встречал кто алгоритм разбора такого файла собственно на распознанный текст и всё остальное? Бесплатные утилиты, встерчающиеся в сети, все понимают только картиночную часть, которая сверху. А хотелось бы программно подлезть к тексту под картинкой.

...

Рейтинг:

0 / 0

27.12.2010, 15:51

| Ответить | Цитировать | Написать

Структура PDF-файла формата "Text under image" - как можно выдрать текст?

#37037392

chpasha

Участник

Сообщения: 10 713

Рейтинг: 0 / 0

не уверен, что точно понял, что вам надо. в яве например есть библиотеки для экспорта PDF в текст (pdfbox). почти наверняка есть аналогичное и в других языках.

...

Рейтинг:

0 / 0

27.12.2010, 16:42

| Ответить | Цитировать | Написать

Структура PDF-файла формата "Text under image" - как можно выдрать текст?

#37037400

Gwa

Участник

Сообщения: 1 807

Рейтинг: 0 / 0

Дык.. Вот copy-paste и подлезайте..

...

Рейтинг:

0 / 0

27.12.2010, 16:46

| Ответить | Цитировать | Написать

Структура PDF-файла формата "Text under image" - как можно выдрать текст?

#37037556

otzi

Гость

http://itextpdf.com/ умеет "всё".

...

Рейтинг:

0 / 0

27.12.2010, 17:49

| Ответить | Цитировать | Написать

Структура PDF-файла формата "Text under image" - как можно выдрать текст?

#37037620

miksoft

Участник

Сообщения: 36 746

Рейтинг: 0 / 0

Pavel BerezinЕсть файл, полученный с OCR-распознавалки типа Файнридера.у распозновалки на выходе PDF?
обычно PDF бывает на входе...

...

Рейтинг:

0 / 0

27.12.2010, 18:32

| Ответить | Цитировать | Написать

5 сообщений из 5, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&gotonew=1&tid=1343231]:	0ms
get settings:	9ms
get forum list:	18ms
check forum access:	3ms
check topic access:	3ms
track hit:	176ms
get topic data:	11ms
get first new msg:	6ms
get forum data:	2ms
get page messages:	53ms
get tp. blocked users:	1ms
others:	239ms

total:	521ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы