|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
Доброго всем времени суток Тысячу лет не был на этом форуме, сколько воды утекло, ух. И вот теперь снова нужна помощь сообщества. С распознаванием текста всё понятно, tesseract и готово. Но проблема в том, что источник букв - фотографии плохого качества, на которых изображена мятая бумага, не обязательно выправленная, может быть изогнута (как на бутылке). По итогу, те участки, что освещены распознаются неплохо, но те, что в тени - нет. Соответственно нужно как-то бумагу выпрямить, выровнять, но алгоритмически. Я думал поэкспериментировать с выравниванием уровня освещённости, чтобы хотя бы участки в тени выровнять по свету с участками что ближе к свету. При этом, что делать с изогнутыми изображениями (как на бутылке) - непонятно. В распознавании изображений я вообще никак, только вот экспериментирую. Буду очень благодарен за любые идеи. Желательно чтобы либы на java были, но, в принципе, можно любой язык :) Ну или хотя бы намётки на алгоритмы, которые могут тут помочь ... |
|||
:
Нравится:
Не нравится:
|
|||
30.07.2019, 10:41 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
АлексейС, Образцы будут? ... |
|||
:
Нравится:
Не нравится:
|
|||
30.07.2019, 11:24 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
АлексейС, задача сводится к двум шагам. 1) Определение изогнутости. Бочка. Подушка. Цилиндр. 2) Применение обратной операции - выравнивание. Здесь нужен строгий критерий. Например - строки текста должны занять строго горизонтальное направление. И левый абзац должен отражать линию. 3) Собственно распознавание. Тессеракт. При чем здесь java - непонятно. Большинство библиотек машинного зрения пишутся на сях поэтому java может выступать лишь посредником вызывая эти библиотеки. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.07.2019, 13:55 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
Я бы в общем случае пробовал так использовать image morphing по ключевым точкам. Примерно так: 1. Разбиваем изображение на кусочки. 2. Находим "хорошие" места, где распознавание работает четко. 3. По ним пытается определить правильный шаблон текста - как бы он выглядел на немятой бумаге. 4. Для имеющегося образца расставляем точки морфинга: хорошие фрагменты - без изменений по периметру, плохие - для краев бумаги определяем куда они должны перейти. 5. Применяем процедуру. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.07.2019, 14:33 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
Спасибо вам! Буду пробовать ... |
|||
:
Нравится:
Не нравится:
|
|||
01.08.2019, 00:12 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
АлексейССпасибо вам! Буду пробовать а напишите потом, пож-та, результаты. что сработало в итоге. Спасибо ... |
|||
:
Нравится:
Не нравится:
|
|||
01.08.2019, 16:43 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
есть куда более продвинутые OCR, чем tesseract, например ABBYY, нет смысла писать свои велосипеды. Но он не бесплатный конечно ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2019, 02:10 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
Abby детектирует "бочку' ? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.08.2019, 08:31 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
stenfordесть куда более продвинутые OCR, ... например ABBYYПравда? мне пож вот это: 21440210 если что, там сишный текст, возможно с комментами. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.08.2019, 19:25 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
более долгий, тренировка нейронной сети, напечатать лист бумаги, потом аккуратно освещать с разных сторон, потихоньку сминать-разминать в разных направлениях и делать фото, либо видео. и подавать мятое и идеальное на вход сети. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2019, 17:45 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
nexomaболее долгий, тренировка нейронной сети, напечатать лист бумаги, потом аккуратно освещать с разных сторон, потихоньку сминать-разминать в разных направлениях и делать фото, либо видео. и подавать мятое и идеальное на вход сети. Это не будет работать. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.08.2019, 17:53 |
|
Распознавание текста на мятой/попорченной бумаге
|
|||
---|---|---|---|
#18+
Проще распознать текст глазами. Все равно выйдет быстрее. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.08.2019, 10:16 |
|
|
start [/forum/topic.php?fid=16&msg=39844227&tid=1339920]: |
0ms |
get settings: |
10ms |
get forum list: |
21ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
130ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
58ms |
get tp. blocked users: |
1ms |
others: | 255ms |
total: | 498ms |
0 / 0 |