powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Распознавание текста на мятой/попорченной бумаге
13 сообщений из 13, страница 1 из 1
Распознавание текста на мятой/попорченной бумаге
    #39842860
АлексейС
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Доброго всем времени суток

Тысячу лет не был на этом форуме, сколько воды утекло, ух. И вот теперь снова нужна помощь сообщества.
С распознаванием текста всё понятно, tesseract и готово.

Но проблема в том, что источник букв - фотографии плохого качества, на которых изображена мятая бумага, не обязательно выправленная, может быть изогнута (как на бутылке).

По итогу, те участки, что освещены распознаются неплохо, но те, что в тени - нет. Соответственно нужно как-то бумагу выпрямить, выровнять, но алгоритмически. Я думал поэкспериментировать с выравниванием уровня освещённости, чтобы хотя бы участки в тени выровнять по свету с участками что ближе к свету.

При этом, что делать с изогнутыми изображениями (как на бутылке) - непонятно. В распознавании изображений я вообще никак, только вот экспериментирую.

Буду очень благодарен за любые идеи. Желательно чтобы либы на java были, но, в принципе, можно любой язык :) Ну или хотя бы намётки на алгоритмы, которые могут тут помочь
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39842876
Соколинский Борис
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АлексейС,
Образцы будут?
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39842979
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АлексейС, задача сводится к двум шагам.
1) Определение изогнутости. Бочка. Подушка. Цилиндр.
2) Применение обратной операции - выравнивание. Здесь нужен строгий критерий. Например - строки текста
должны занять строго горизонтальное направление. И левый абзац должен отражать линию.
3) Собственно распознавание. Тессеракт.

При чем здесь java - непонятно. Большинство библиотек машинного зрения пишутся на сях поэтому
java может выступать лишь посредником вызывая эти библиотеки.
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39843002
Соколинский Борис
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я бы в общем случае пробовал так использовать image morphing по ключевым точкам.
Примерно так:

1. Разбиваем изображение на кусочки.
2. Находим "хорошие" места, где распознавание работает четко.
3. По ним пытается определить правильный шаблон текста - как бы он выглядел на немятой бумаге.
4. Для имеющегося образца расставляем точки морфинга: хорошие фрагменты - без изменений по периметру, плохие - для краев бумаги определяем куда они должны перейти.
5. Применяем процедуру.
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39843750
АлексейС
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Спасибо вам! Буду пробовать
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39844227
konstantin_got
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АлексейССпасибо вам! Буду пробовать


а напишите потом, пож-та, результаты. что сработало в итоге. Спасибо
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39844361
stenford
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
есть куда более продвинутые OCR, чем tesseract, например ABBYY, нет смысла писать свои велосипеды. Но он не бесплатный конечно
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39844403
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Abby детектирует "бочку' ?
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39847673
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
stenfordесть куда более продвинутые OCR, ... например ABBYYПравда? мне пож вот это: 21440210 если что, там сишный текст, возможно с комментами.
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39847965
Фотография nexoma
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
более долгий,
тренировка нейронной сети, напечатать лист бумаги,
потом аккуратно освещать с разных сторон, потихоньку сминать-разминать в разных направлениях и делать фото, либо видео.

и подавать мятое и идеальное на вход сети.
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39847967
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
nexomaболее долгий,
тренировка нейронной сети, напечатать лист бумаги,
потом аккуратно освещать с разных сторон, потихоньку сминать-разминать в разных направлениях и делать фото, либо видео.

и подавать мятое и идеальное на вход сети.
Это не будет работать.
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39848646
L_argo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Проще распознать текст глазами. Все равно выйдет быстрее.
...
Рейтинг: 0 / 0
Распознавание текста на мятой/попорченной бумаге
    #39848702
Фотография Изопропил
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Соколинский БорисАлексейС,
Образцы будут?
это вряд ли
...
Рейтинг: 0 / 0
13 сообщений из 13, страница 1 из 1
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Распознавание текста на мятой/попорченной бумаге
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]