алгоритм выделения "шапки" из табличных данных? / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / алгоритм выделения "шапки" из табличных данных?

4 сообщений из 4, страница 1 из 1

алгоритм выделения "шапки" из табличных данных?

#38707624

ldfanate

Участник

Сообщения: 269

Рейтинг: 0 / 0

Подскажите идею, что почитать вот по какой задаче.

Есть экселина с табличкой, которая вышла из OCR-программы. В табличке находятся N строк достаточно структурированных данных (например, первый столбец преимущественно цифровые коды, второй преимущественно тексты, третий - суммы) и несколько строк "шапки" сверху. Шапка по наполнению выделяется (по крайней мере визуально), но может содержать переменное число строк.

Соответственно, нужен какойто программный критерий непохожести шапки, чтобы определить сколько строк таблицы надо пропустить. Просто сравнить по критерию число-нечисло (как это делает эксель) не получится, т.к. достоверность OCR-программы не 100%. Т.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.).

Пока сходу видится посчитать некие весовые коэффициенты чтоли для каждого столбца - доля цифр/доля букв в каждой ячейке. Т.е. получится несколько массивов коэффициентов. Какой алгоритм выявит явно-непохожие строки (т.е. шапку и отчасти совсемкривые строки внутри таблицы)?

...

Рейтинг:

0 / 0

28.07.2014, 20:22:08

| Ответить | Цитировать | Написать

алгоритм выделения "шапки" из табличных данных?

#38707889

Maxim12345678

Гость

ldfanateТ.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.).

Ну а если попробовать устранить ошибки и пользоваться стандартными экселевскими функциями (свойствами)? Написать UDF или стырить в инете, чтобы удалить лишние символы.

...

Рейтинг:

0 / 0

29.07.2014, 11:03:11

| Ответить | Цитировать | Написать

алгоритм выделения "шапки" из табличных данных?

#38708117

softwarer

Участник

Откуда: 127.0.0.1

Сообщения: 51 965

Рейтинг: 0 / 0

ldfanateСоответственно, нужен какойто программный критерий непохожести шапки,
Если я правильно понимаю, о чём речь, то скорее всего, таким будет доминирующее количество пустых ячеек в "шапке".

...

Рейтинг:

0 / 0

29.07.2014, 13:51:36

| Ответить | Цитировать | Написать

алгоритм выделения "шапки" из табличных данных?

#38708284

ldfanate

Участник

Сообщения: 269

Рейтинг: 0 / 0

softwarer,

Такой вариант тоже прикидывал. Да, бывает что шапка "дырявая" (гдето пусто, гдето много текста).

Но хотелось бы в общем виде получить некий универсальный алгоритм выявления непохожести строк некоего массива. Т.е. если таблицу рассматривать как двумерный массив данных, а каждую её ячейку (независимо от того что в ней - пусто, числа или текст) - как одномерный массив неких весовых коэффициентов (которые будут функцией от содержимого ячейки, и которые придётся подбирать экспериментально) - то фактически получается задача в трёхмерном массиве сделать горизонтальные срезы и математически выявить наиболее непохожие срезы в верхней части матрицы.
Например както свести трёхмерный набор к одномерному чтоли, и по нему среднее/медиану считать и отклонения от среднего.

Может кто встречал готовые алгоритмы (или хотябы как оно может правильно называться с т.з. теоретической математики)?

...

Рейтинг:

0 / 0

29.07.2014, 15:40:53

| Ответить | Цитировать | Написать

4 сообщений из 4, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=38707624&tid=1341277]:	0ms
get settings:	4ms
get forum list:	8ms
check forum access:	2ms
check topic access:	2ms
track hit:	41ms
get topic data:	5ms
get forum data:	1ms
get page messages:	23ms
get tp. blocked users:	1ms
others:	189ms

total:	276ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы