|
|
|
алгоритм выделения "шапки" из табличных данных?
|
|||
|---|---|---|---|
|
#18+
Подскажите идею, что почитать вот по какой задаче. Есть экселина с табличкой, которая вышла из OCR-программы. В табличке находятся N строк достаточно структурированных данных (например, первый столбец преимущественно цифровые коды, второй преимущественно тексты, третий - суммы) и несколько строк "шапки" сверху. Шапка по наполнению выделяется (по крайней мере визуально), но может содержать переменное число строк. Соответственно, нужен какойто программный критерий непохожести шапки, чтобы определить сколько строк таблицы надо пропустить. Просто сравнить по критерию число-нечисло (как это делает эксель) не получится, т.к. достоверность OCR-программы не 100%. Т.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.). Пока сходу видится посчитать некие весовые коэффициенты чтоли для каждого столбца - доля цифр/доля букв в каждой ячейке. Т.е. получится несколько массивов коэффициентов. Какой алгоритм выявит явно-непохожие строки (т.е. шапку и отчасти совсемкривые строки внутри таблицы)? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 28.07.2014, 20:22 |
|
||
|
алгоритм выделения "шапки" из табличных данных?
|
|||
|---|---|---|---|
|
#18+
ldfanateТ.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.). Ну а если попробовать устранить ошибки и пользоваться стандартными экселевскими функциями (свойствами)? Написать UDF или стырить в инете, чтобы удалить лишние символы. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.07.2014, 11:03 |
|
||
|
алгоритм выделения "шапки" из табличных данных?
|
|||
|---|---|---|---|
|
#18+
ldfanateСоответственно, нужен какойто программный критерий непохожести шапки, Если я правильно понимаю, о чём речь, то скорее всего, таким будет доминирующее количество пустых ячеек в "шапке". ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.07.2014, 13:51 |
|
||
|
алгоритм выделения "шапки" из табличных данных?
|
|||
|---|---|---|---|
|
#18+
softwarer, Такой вариант тоже прикидывал. Да, бывает что шапка "дырявая" (гдето пусто, гдето много текста). Но хотелось бы в общем виде получить некий универсальный алгоритм выявления непохожести строк некоего массива. Т.е. если таблицу рассматривать как двумерный массив данных, а каждую её ячейку (независимо от того что в ней - пусто, числа или текст) - как одномерный массив неких весовых коэффициентов (которые будут функцией от содержимого ячейки, и которые придётся подбирать экспериментально) - то фактически получается задача в трёхмерном массиве сделать горизонтальные срезы и математически выявить наиболее непохожие срезы в верхней части матрицы. Например както свести трёхмерный набор к одномерному чтоли, и по нему среднее/медиану считать и отклонения от среднего. Может кто встречал готовые алгоритмы (или хотябы как оно может правильно называться с т.з. теоретической математики)? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 29.07.2014, 15:40 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=38707889&tid=1341277]: |
0ms |
get settings: |
7ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
154ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
58ms |
get tp. blocked users: |
2ms |
| others: | 203ms |
| total: | 458ms |

| 0 / 0 |
