powered by simpleCommunicator - 2.0.61     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Программирование [игнор отключен] [закрыт для гостей] / алгоритм выделения "шапки" из табличных данных?
4 сообщений из 4, страница 1 из 1
алгоритм выделения "шапки" из табличных данных?
    #38707624
ldfanate
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Подскажите идею, что почитать вот по какой задаче.

Есть экселина с табличкой, которая вышла из OCR-программы. В табличке находятся N строк достаточно структурированных данных (например, первый столбец преимущественно цифровые коды, второй преимущественно тексты, третий - суммы) и несколько строк "шапки" сверху. Шапка по наполнению выделяется (по крайней мере визуально), но может содержать переменное число строк.

Соответственно, нужен какойто программный критерий непохожести шапки, чтобы определить сколько строк таблицы надо пропустить. Просто сравнить по критерию число-нечисло (как это делает эксель) не получится, т.к. достоверность OCR-программы не 100%. Т.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.).

Пока сходу видится посчитать некие весовые коэффициенты чтоли для каждого столбца - доля цифр/доля букв в каждой ячейке. Т.е. получится несколько массивов коэффициентов. Какой алгоритм выявит явно-непохожие строки (т.е. шапку и отчасти совсемкривые строки внутри таблицы)?
...
Рейтинг: 0 / 0
алгоритм выделения "шапки" из табличных данных?
    #38707889
Maxim12345678
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ldfanateТ.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.).

Ну а если попробовать устранить ошибки и пользоваться стандартными экселевскими функциями (свойствами)? Написать UDF или стырить в инете, чтобы удалить лишние символы.
...
Рейтинг: 0 / 0
алгоритм выделения "шапки" из табличных данных?
    #38708117
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ldfanateСоответственно, нужен какойто программный критерий непохожести шапки,
Если я правильно понимаю, о чём речь, то скорее всего, таким будет доминирующее количество пустых ячеек в "шапке".
...
Рейтинг: 0 / 0
алгоритм выделения "шапки" из табличных данных?
    #38708284
ldfanate
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
softwarer,

Такой вариант тоже прикидывал. Да, бывает что шапка "дырявая" (гдето пусто, гдето много текста).

Но хотелось бы в общем виде получить некий универсальный алгоритм выявления непохожести строк некоего массива. Т.е. если таблицу рассматривать как двумерный массив данных, а каждую её ячейку (независимо от того что в ней - пусто, числа или текст) - как одномерный массив неких весовых коэффициентов (которые будут функцией от содержимого ячейки, и которые придётся подбирать экспериментально) - то фактически получается задача в трёхмерном массиве сделать горизонтальные срезы и математически выявить наиболее непохожие срезы в верхней части матрицы.
Например както свести трёхмерный набор к одномерному чтоли, и по нему среднее/медиану считать и отклонения от среднего.

Может кто встречал готовые алгоритмы (или хотябы как оно может правильно называться с т.з. теоретической математики)?
...
Рейтинг: 0 / 0
4 сообщений из 4, страница 1 из 1
Форумы / Программирование [игнор отключен] [закрыт для гостей] / алгоритм выделения "шапки" из табличных данных?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]