Гость
Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / OCR, тяжелый случай / 12 сообщений из 12, страница 1 из 1
05.12.2020, 16:40
    #40024871
Alexander Us
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
Вопрос касается распознавания документов.

Есть некие бланки, выполненные в грязно-зелёном цвете с которых надо считать тексты.
Полезная информация, которую надо распознавать, напечатана чёрным/серым поверх.
Часто она накладывается на текст или растер бланка, что становится причиной ошибок распознавания .

Есть ли какой-то способ программно удалить грязно-зелёные растер и тексты бланка, оставив только полезный чёрный/серый текст для передачи в OCR?
(примитивное удаление зелёной компоненты конечно же не приносит нужного эффекта)

Есть ли какой-то способ распознать (грязно-зелёные) линии / ячейки бланка чтобы получить их координаты?

Изображения могут быть получены с телефонов, т.е. представление цветов и помятость документа могут сильно варьироваться.

Буду признателен за советы, ссылки, примеры.

ЗЫ:
Приведённый пример ещё очень хорошего качества, по сравнению с остальными.
...
Рейтинг: 0 / 0
05.12.2020, 16:51
    #40024874
Сон Веры Павловны
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
Alexander Us,

Решения для таких задач обычно платные, причем хорошо платные. У меня как-то была задача распознавания 2-D баркодов, причем они тоже могли придтись на сгиб бумаги, на них могли шлёпнуть печать, итд итп. Все бесплатные решения нормально работали хорошо если в 20% случаев. Взяли платное - работает нормально.
Пример для вашего случая - https://www.accusoft.com/products/formsuite-for-structured-forms/
...
Рейтинг: 0 / 0
05.12.2020, 17:08
    #40024877
Alexander Us
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
Сон Веры Павловны,

Спасибо за ссылку,

но пока что ищю бюджетное решение.
Microsoft Vison API вполне бы хватило, если бы была возможность "подготовить" картинку для распознавания.
...
Рейтинг: 0 / 0
05.12.2020, 17:29
    #40024882
vb_sub
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
Сон Веры Павловны,
это то решение, которое в итоге Вас устроило?
...
Рейтинг: 0 / 0
05.12.2020, 17:30
    #40024883
vb_sub
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
Alexander Us,
а на данный момент какую библиотеку для распознавания Вы используете?
...
Рейтинг: 0 / 0
05.12.2020, 17:48
    #40024886
Сон Веры Павловны
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
vb_sub
Сон Веры Павловны,
это то решение, которое в итоге Вас устроило?

У меня было распознавание баркодов, здесь - распознавание текста, области разные, и решения тоже. А контора - да, та же самая.
...
Рейтинг: 0 / 0
05.12.2020, 17:52
    #40024887
Alexander Us
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
vb_sub,

Microsoft Vison API
...
Рейтинг: 0 / 0
05.12.2020, 19:00
    #40024902
vb_sub
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
А как-то свою нейросеть нельзя поднатаскать под конкретный случай- сейчас это модно, молодежно.
...
Рейтинг: 0 / 0
05.12.2020, 19:19
    #40024905
Alexander Us
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
vb_sub,

Мне нужно очистить изображение от "шума".

Вы считаете, нейросеть это сделает?
Есть примеры?
...
Рейтинг: 0 / 0
05.12.2020, 21:22
    #40024935
x1ca4064
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
Alexander Us
vb_sub,

Мне нужно очистить изображение от "шума".

Вы считаете, нейросеть это сделает?
Есть примеры?


Я бы сначала попробовал преобразование Фурье - подложка (квази)периодическая, частота, как мне кажется, выше, чем полезый сигнал, линии сетки - частота ниже. Т.е. можно просто попробовать вырезать некоторые частоты и посмотреть на результат.
...
Рейтинг: 0 / 0
05.12.2020, 21:30
    #40024940
vb_sub
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
Alexander Us,
да одной из хороших возможностей нейросетей- очистка от шумов.
...
Рейтинг: 0 / 0
06.12.2020, 01:32
    #40024990
Alexander Us
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
OCR, тяжелый случай
x1ca4064,

Спасибо за совет, попробую двинуться в этом направлении.
Однако основные ошибки, как мне кажется, вызваны линиями грида.
Когда буква или цифра напечатаны прямо на нём.

Есть ли идеи как убрать/ослабить грид, не удалив части букв?
Грид - грязно зелёный.
...
Рейтинг: 0 / 0
Форумы / WinForms, .Net Framework [игнор отключен] [закрыт для гостей] / OCR, тяжелый случай / 12 сообщений из 12, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]