Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / алгоритм выделения "шапки" из табличных данных? / 4 сообщений из 4, страница 1 из 1
28.07.2014, 20:22
    #38707624
ldfanate
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
алгоритм выделения "шапки" из табличных данных?
Подскажите идею, что почитать вот по какой задаче.

Есть экселина с табличкой, которая вышла из OCR-программы. В табличке находятся N строк достаточно структурированных данных (например, первый столбец преимущественно цифровые коды, второй преимущественно тексты, третий - суммы) и несколько строк "шапки" сверху. Шапка по наполнению выделяется (по крайней мере визуально), но может содержать переменное число строк.

Соответственно, нужен какойто программный критерий непохожести шапки, чтобы определить сколько строк таблицы надо пропустить. Просто сравнить по критерию число-нечисло (как это делает эксель) не получится, т.к. достоверность OCR-программы не 100%. Т.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.).

Пока сходу видится посчитать некие весовые коэффициенты чтоли для каждого столбца - доля цифр/доля букв в каждой ячейке. Т.е. получится несколько массивов коэффициентов. Какой алгоритм выявит явно-непохожие строки (т.е. шапку и отчасти совсемкривые строки внутри таблицы)?
...
Рейтинг: 0 / 0
29.07.2014, 11:03
    #38707889
Maxim12345678
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
алгоритм выделения "шапки" из табличных данных?
ldfanateТ.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.).

Ну а если попробовать устранить ошибки и пользоваться стандартными экселевскими функциями (свойствами)? Написать UDF или стырить в инете, чтобы удалить лишние символы.
...
Рейтинг: 0 / 0
29.07.2014, 13:51
    #38708117
softwarer
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
алгоритм выделения "шапки" из табличных данных?
ldfanateСоответственно, нужен какойто программный критерий непохожести шапки,
Если я правильно понимаю, о чём речь, то скорее всего, таким будет доминирующее количество пустых ячеек в "шапке".
...
Рейтинг: 0 / 0
29.07.2014, 15:40
    #38708284
ldfanate
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
алгоритм выделения "шапки" из табличных данных?
softwarer,

Такой вариант тоже прикидывал. Да, бывает что шапка "дырявая" (гдето пусто, гдето много текста).

Но хотелось бы в общем виде получить некий универсальный алгоритм выявления непохожести строк некоего массива. Т.е. если таблицу рассматривать как двумерный массив данных, а каждую её ячейку (независимо от того что в ней - пусто, числа или текст) - как одномерный массив неких весовых коэффициентов (которые будут функцией от содержимого ячейки, и которые придётся подбирать экспериментально) - то фактически получается задача в трёхмерном массиве сделать горизонтальные срезы и математически выявить наиболее непохожие срезы в верхней части матрицы.
Например както свести трёхмерный набор к одномерному чтоли, и по нему среднее/медиану считать и отклонения от среднего.

Может кто встречал готовые алгоритмы (или хотябы как оно может правильно называться с т.з. теоретической математики)?
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / алгоритм выделения "шапки" из табличных данных? / 4 сообщений из 4, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]