|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
Вопрос касается распознавания документов. Есть некие бланки, выполненные в грязно-зелёном цвете с которых надо считать тексты. Полезная информация, которую надо распознавать, напечатана чёрным/серым поверх. Часто она накладывается на текст или растер бланка, что становится причиной ошибок распознавания . Есть ли какой-то способ программно удалить грязно-зелёные растер и тексты бланка, оставив только полезный чёрный/серый текст для передачи в OCR? (примитивное удаление зелёной компоненты конечно же не приносит нужного эффекта) Есть ли какой-то способ распознать (грязно-зелёные) линии / ячейки бланка чтобы получить их координаты? Изображения могут быть получены с телефонов, т.е. представление цветов и помятость документа могут сильно варьироваться. Буду признателен за советы, ссылки, примеры. ЗЫ: Приведённый пример ещё очень хорошего качества, по сравнению с остальными. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 16:40 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
Alexander Us, Решения для таких задач обычно платные, причем хорошо платные. У меня как-то была задача распознавания 2-D баркодов, причем они тоже могли придтись на сгиб бумаги, на них могли шлёпнуть печать, итд итп. Все бесплатные решения нормально работали хорошо если в 20% случаев. Взяли платное - работает нормально. Пример для вашего случая - https://www.accusoft.com/products/formsuite-for-structured-forms/ ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 16:51 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
Сон Веры Павловны, Спасибо за ссылку, но пока что ищю бюджетное решение. Microsoft Vison API вполне бы хватило, если бы была возможность "подготовить" картинку для распознавания. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 17:08 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
Сон Веры Павловны, это то решение, которое в итоге Вас устроило? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 17:29 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
Alexander Us, а на данный момент какую библиотеку для распознавания Вы используете? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 17:30 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
vb_sub Сон Веры Павловны, это то решение, которое в итоге Вас устроило? У меня было распознавание баркодов, здесь - распознавание текста, области разные, и решения тоже. А контора - да, та же самая. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 17:48 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
vb_sub, Microsoft Vison API ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 17:52 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
А как-то свою нейросеть нельзя поднатаскать под конкретный случай- сейчас это модно, молодежно. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 19:00 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
vb_sub, Мне нужно очистить изображение от "шума". Вы считаете, нейросеть это сделает? Есть примеры? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 19:19 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
Alexander Us vb_sub, Мне нужно очистить изображение от "шума". Вы считаете, нейросеть это сделает? Есть примеры? Я бы сначала попробовал преобразование Фурье - подложка (квази)периодическая, частота, как мне кажется, выше, чем полезый сигнал, линии сетки - частота ниже. Т.е. можно просто попробовать вырезать некоторые частоты и посмотреть на результат. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 21:22 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
Alexander Us, да одной из хороших возможностей нейросетей- очистка от шумов. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.12.2020, 21:30 |
|
OCR, тяжелый случай
|
|||
---|---|---|---|
#18+
x1ca4064, Спасибо за совет, попробую двинуться в этом направлении. Однако основные ошибки, как мне кажется, вызваны линиями грида. Когда буква или цифра напечатаны прямо на нём. Есть ли идеи как убрать/ослабить грид, не удалив части букв? Грид - грязно зелёный. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.12.2020, 01:32 |
|
|
start [/forum/topic.php?fid=20&msg=40024905&tid=1398410]: |
0ms |
get settings: |
9ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
30ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
46ms |
get tp. blocked users: |
1ms |
others: | 12ms |
total: | 127ms |
0 / 0 |