алгоритм выделения "шапки" из табличных данных? / Программирование

ReSQL.ru

2.0.61

Планшетная версия Контакт Правила FAQ Помощь

Гость

Войти | Профиль | Очистить

Нов. | Гор. | Избр.

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Действия ...

Доб. в избранное
Игнор. тему
Прикреп. тему
Пометить прочит. / непрочит.
Фильтр:
Сообщения автора темы
Сообщение содержит вложения
Сообщение содержит картинки
Сообщение содержит видеоклипы
Сообщение содержит аудиоклипы
Сообщение содержит картинки или видео 18+

Форумы / Программирование [игнор отключен] [закрыт для гостей] / алгоритм выделения "шапки" из табличных данных? / 4 сообщений из 4, страница 1 из 1

28.07.2014, 20:22:08

#38707624

ldfanate

Участник

Сообщения: 269
Рейтинг: 0 / 0

алгоритм выделения "шапки" из табличных данных?

Подскажите идею, что почитать вот по какой задаче.

Есть экселина с табличкой, которая вышла из OCR-программы. В табличке находятся N строк достаточно структурированных данных (например, первый столбец преимущественно цифровые коды, второй преимущественно тексты, третий - суммы) и несколько строк "шапки" сверху. Шапка по наполнению выделяется (по крайней мере визуально), но может содержать переменное число строк.

Соответственно, нужен какойто программный критерий непохожести шапки, чтобы определить сколько строк таблицы надо пропустить. Просто сравнить по критерию число-нечисло (как это делает эксель) не получится, т.к. достоверность OCR-программы не 100%. Т.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.).

Пока сходу видится посчитать некие весовые коэффициенты чтоли для каждого столбца - доля цифр/доля букв в каждой ячейке. Т.е. получится несколько массивов коэффициентов. Какой алгоритм выявит явно-непохожие строки (т.е. шапку и отчасти совсемкривые строки внутри таблицы)?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

29.07.2014, 11:03:11

#38707889

Maxim12345678

Гость

алгоритм выделения "шапки" из табличных данных?

ldfanateТ.е. то что под шапкой - может быть с ошибками (т.е. например в суммовом столбце будут попадаться и символы, и знаки препинания и т.д.).

Ну а если попробовать устранить ошибки и пользоваться стандартными экселевскими функциями (свойствами)? Написать UDF или стырить в инете, чтобы удалить лишние символы.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

29.07.2014, 13:51:36

#38708117

softwarer

Участник

Откуда: 127.0.0.1
Сообщения: 51 965
Рейтинг: 0 / 0

алгоритм выделения "шапки" из табличных данных?

ldfanateСоответственно, нужен какойто программный критерий непохожести шапки,
Если я правильно понимаю, о чём речь, то скорее всего, таким будет доминирующее количество пустых ячеек в "шапке".

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

29.07.2014, 15:40:53

#38708284

ldfanate

Участник

Сообщения: 269
Рейтинг: 0 / 0

алгоритм выделения "шапки" из табличных данных?

softwarer,

Такой вариант тоже прикидывал. Да, бывает что шапка "дырявая" (гдето пусто, гдето много текста).

Но хотелось бы в общем виде получить некий универсальный алгоритм выявления непохожести строк некоего массива. Т.е. если таблицу рассматривать как двумерный массив данных, а каждую её ячейку (независимо от того что в ней - пусто, числа или текст) - как одномерный массив неких весовых коэффициентов (которые будут функцией от содержимого ячейки, и которые придётся подбирать экспериментально) - то фактически получается задача в трёхмерном массиве сделать горизонтальные срезы и математически выявить наиболее непохожие срезы в верхней части матрицы.
Например както свести трёхмерный набор к одномерному чтоли, и по нему среднее/медиану считать и отклонения от среднего.

Может кто встречал готовые алгоритмы (или хотябы как оно может правильно называться с т.з. теоретической математики)?

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&mobile=1&tid=1341277]:	0ms
get settings:	5ms
get forum list:	13ms
check forum access:	2ms
check topic access:	2ms
track hit:	47ms
get topic data:	6ms
get forum data:	1ms
get page messages:	23ms
get tp. blocked users:	1ms
others:	214ms

total:	314ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы