powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Определить наиболее влиятельные исходные данные в своде
34 сообщений из 34, показаны все 2 страниц
Определить наиболее влиятельные исходные данные в своде
    #39886204
love_bach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дано:
Имеется таблица исходных числовых (целые неотрицательные) данных a ij . Столбцы упорядочены
B 1 B 2 ...B M A 1 a 11 a 12 ...a 1M A 2 a 21 a 22 ...a 2M ...............A N a N1 a N2 ...a NM

По ней строится сводная таблица, суммированием по строкам
B 1 B 2 ...B M SUMSUM(a i1 )SUM(a i2 )...SUM(a iM )
которую можно рассматривать как функцию

Код: sql
1.
F:{1, 2,..., M} -> N



Функция F может иметь скачки вверх/вниз, которые на графике функции видно "на глаз" - они "сильно" отличаются от других соседних значений функции.

Требуется:
Для скачков определить исходные данные - подмножество заголовков строк исходной таблицы, - которые внесли в скачек наибольший вклад

Подскажите, пожалуйста, куда копать, какие методы анализа использовать?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886210
Gennadiy Usov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Скачёк имеет место на одну строку или на несколько строк ("плавный холм")?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886217
love_bach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Gennadiy Usov
Скачёк имеет место на одну строку или на несколько строк ("плавный холм")?


на несколько строк
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886308
Gennadiy Usov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
А от чего сильно отличается: прямая, кривая, парабола, ....

На первый взгляд нужна аппроксимация значений F.
И сравнение значений F с новой формулой.

Либо искать диапазоны, где разные последовательные разности по знаку +-("производная для F").
Тогда холм.
Чем больше последовательных +-, тем выше холм.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886501
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach, нарисуй характерный(ые) пример(ы) таблицы(15х15), график и определи типы скачков.
Что такое "скачок"?
одиночный выброс(1 2 3 4 99 5 6 7 8),
ступенька (сигмоидная)
ступенька(пьедестал за 1-3 места в спорте)
треугольник, трапеция
всё это только вверх или м.б. вниз?
если типа ступеньки, то насколько должны отличаться высота(глубина) слева и справа, чтобы признать скачком ?..

А вообще в матане есть всё достаточное:
производная=наклон прямой,
ну,или в принципе типа одномерной EDGE()
ИМХО, "высота скачка" относительна,она зависит от соседних столбов, а не только от одного. Соответственно, одна и та же строка может дать разную долю в разные скачки. И как тогда считать, абсолютный вклад или в % ?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886596
love_bach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
love_bach, нарисуй характерный(ые) пример(ы) таблицы(15х15), график и определи типы скачков.
Что такое "скачок"?
одиночный выброс(1 2 3 4 99 5 6 7 8),
ступенька (сигмоидная)
ступенька(пьедестал за 1-3 места в спорте)
треугольник, трапеция
всё это только вверх или м.б. вниз?
если типа ступеньки, то насколько должны отличаться высота(глубина) слева и справа, чтобы признать скачком ?..

А вообще в матане есть всё достаточное:
производная=наклон прямой,
ну,или в принципе типа одномерной EDGE()
ИМХО, "высота скачка" относительна,она зависит от соседних столбов, а не только от одного. Соответственно, одна и та же строка может дать разную долю в разные скачки. И как тогда считать, абсолютный вклад или в % ?


эти все вопросы я себе задавал, хотелось бы на них ответы получить исходя из

love_bachФункция F может иметь скачки вверх/вниз, которые на графике функции видно "на глаз" - они "сильно" отличаются от других соседних значений функции.



PS
про "производную=наклон" я тоже знаю
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886679
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach, коль скоро вам всё известно, то ответ на единственный вопрос
авторкакие методы анализане должен вызывать затруднений.
Уже упомянуто: по типу EDGE - копать в матан, но, похоже, что этот звук прошёл мимо чьих-то ушей. Ещё СКО - копать в обработку временнЫх рядов.
Вместо ТСа я сам приведу пример.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886683
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дополнительно спрашиваю: есть понимание того, как определять "соседние" значения ?
как определять "сильно отличается" уже намёкнуто, это не единственные споосбы, может зависеть от происхождения процесса,от потребностей, даже от объёма данных, не говоря уже об их величине в привязке к компу.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886796
love_bach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
Дополнительно спрашиваю: есть понимание того, как определять "соседние" значения ?
как определять "сильно отличается" уже намёкнуто, это не единственные споосбы


нет понимания, это является частью задачи
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886824
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach
нет понимания, это является частью задачи

Берёшь окно, вычисляешь в нём среднее, определяешь девиацию целевой функции. При превышении этой девиацией некоторого порогового значения, диагностируешь "скачок". После чего определяешь девиации заголовков и считаешь, что в скачок наибольший вклад внесли те, у которых они самые большие. Если скачок на всём пространстве заведомо один, то и окном можно считать всё пространство. Но возможно, его придётся нормализовать по аппроксимирующей функции как уже сказали выше.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886909
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov,
пусть характерный пример выложит, может там и считать нечего. Потому как в моём примере на вопрос "сколько там скачков?" ответов будет столько же как отвечающих. Потому как мне там нужны были необязательно "горбы", а для кого-то там только один (широкий центральный) скачок.

Ктому же для большого кол-ва данных обычно нужна плавающая дисперсия и плавающее среднее. В экономических задачах чаще всего именно так, хотя не обязательно. Для преобразования Ф тоже желательно снять средний тренд, а их столько же видов сколько отвечающих.
Можно вычесть плавающее робастное среднее (желательно смещённое), а ту единственнуо оставшуюся огромную амплитуду назначить скачком (хорошо бы она была выше хотя бы 1 СКО). Да много разных приёмов можно навертеть.
А у ТС наверняка что-то учебное, типа психолого-социологического. И трудно представить сводную таблицу в сотни и тысячи колонок. Бывают, конечно, но и класс задач тогда соответствует. Аздесь ведь Тайна ... А потом он(она) попорсит эллипс рассеяния построить для выбора главных компонент)), тоже метод.

И, да, ТСе лучше уточнить постановку у препа.
А здесь для начала пример, начальные действия, затруднения, если не спешно. Тем более пишет, что "на глаз всё видит, только сказать не может".
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886971
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Можно попробовать наложить на строку вейвлетик. Подвигать вправо-влево. Подвигать период. И когда скалярное произведение
даст величину выше порога - зафиксировать амплитуду и период всплеска.

Есть мысль что нейронная с учителем сделает это более ... технично. От пользователя надо просто
вручную указать мышкой "интересные точки". И учебная выборка также должна содержать
ложные ряды где 100% нет интересных точек. Чтобы не было ложных срабатываний и переобучений.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886977
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach,

вторая производная на границе разделения равна нулю
дальше просто объединяешь участки, которые "не сильно отличаются"
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886997
Gennadiy Usov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
kealon(Ruslan)
love_bach,
вторая производная на границе разделения равна нулю
дальше просто объединяешь участки, которые "не сильно отличаются"
Ошибка.

У графика x^3 в точке 0 тоже 2-я производная равна 0, а "границы разделения" нет.

Есть что-то другое, может быть для задачи тоже интересное.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39887037
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Gennadiy Usov,

в общем то там и есть, 0 как раз делит на два разнородных участка
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39887124
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach, а есть живые тестовые данные?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39887770
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton, тухляк. Аналогично недавнему "контуру". Уверен, там что-нить типа 50 товарных групп, либо 20 филиалов, либо 12 месяцев. Ничего по-настоящему прецезионного, можно и отсебятину, +- сотню млн $.

Безотносительно ко всему предыдущему, рецепт для желающих:
Откуда взять данные, чтоб прочувствовать ситуации?
-Берём боле-мене контрастныое фото.
- Суммируем (в сером цвете либо одну координату) каждый столб(строку).
-Полученный массив нормируем до вменяемо небольших значений.
-Смотрим график, вибираем на нём интересный участок.
-Тренируемся.
К слову, график выше так примерно и сделан.

-Предварительно, договариваемся, что точки независимы, выбираем вариант направления обработки в одну сторону либо индифферентно 2-сторонний (т.к. влияний из будущего для времени не д.б.).
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889229
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Во времена модемных интернетов я заинтересовался как восстановить повреждённые картинки JPG.
У них обычно один фрейм (кубик 8х8) очень резко менял цвет и как-то выпадал из общего фона.

Тогда придумал тот-же анализ Фурье соседних кубиков. С каким-то усреднением.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889290
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Между прочим, если речь только о заметном изменении оттенка (не столько об интенсивности), то можно было попробовать пронумеровать оттенки ~30(или меньше)=3*10 низкой интенсивности, средней и высокой. Там, где номер делает скачок .... и никаких заморочек с Ф.
Только для лучшей линейности в индексах ргб нужно переводить в более равномерную сетку спец. нелинейным преобразованием. Я делал такой перевод на топокартах 256ргб. Без этого всё было плохо.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889303
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Там надо не скачок считать а угол поворота в полярных координатах. Потому как на краях
красный и синий заворачиваются в фиолетовый.

...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889562
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну, не скажу наверняка. Имел ввиду, что соседние регионы, их средние (по твоим словам) не сильно отличаются, а один выделяется по тону. Вот по среднему притянуть к индексу (вроде постеризации). Близкие регионы будут с одним индексом, а этот с другим. Про скачок плохо сказал, надо попробовать, не умозрительно как я.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889572
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если дашь пример с плохим регионом, я попробую. А то ведь я не знаю, насколько он должен выделяться.
А мне не говори, пусть загадкой будет.Только пусть честные 8х8, т.е. не смещённые, иначе метод не сработает скорее всего.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889737
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ОК. Я поищу. Пока нахожу такой артефакт что вся картинка после битого фрейма как-бы сдвинулась вправо или влево
и окрасилась во все цвета радуги.

Тот артефакт единичного квадратика не могу найти.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889882
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А мож он просто по периметру контрастировал, вот и показалось, что цвет не тот. Например поворт на 90.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39891955
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98, что ты думашь об этом топике в тостере https://toster.ru/q/685557

Мне кажется - вопрос интересный.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39892071
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton,
что-то с ходу не въезжаю. Пока думаю, что похожий и минимально отличный -- 2 разные вещи. Позднее что-нибудь ещё об этом подумаю.
В принципее, я на такой основе искал наоборот, расхождения. Только у него вроде не центрированные вещи, а у меня центрированные, стандартно, вокруг Мож.

А в МЛ функция встроенная cov(A,B), где А и Б д.б. матрицами одинаковых размеров. Нужно, чтоб меньшая м-ца ползала по другой матрице. Но тогда она ддолжна целиком вмещаться. Иначе их надо как-то приводить к размеру. Но вопос главный: кто будет оценивать схожесть?
Если на глаз, то мониторы у всех разные, автомат - вот тут и нужен формальный критерий. Имеются другие методы кроме корр. и ковар. Понимаешь, да? Параллельность 2-х векторов не всегда означает их совпадение. Для глаза подходит "энергетическое различие" в тех как раз координатах, что я писал выше. Но надо что-то масштабировать.

И кстати в МЛ не так работает. Автор считает, что матрица есть один большой вектор, что вообще говоря, сомнительно. А cov(A,B) коварирует столбы, а для строк надо транспонировать cov(A.',B.'). А потом как-то объединить рез-ты логически либо арифметически, либо ещё как-то ...
Интересный вопрос, да, но мне стимула нет во чтобы то ни стало срочно к утру ... у меня чай стынет))
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39892081
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В общем-то ответил уже, что думаю: если ковариация, то центрированные произведения, только сомнительна ценность вытягивания м-цы в строчку. Это по графической формуле.
По приведённому коду - жуткая смесь кони, люди и залпы тысячи орудий ... а в результате земля тряслась как чьи-то груди (от смеха).
А 2-ю проблему поможет снизить центрированность и применение функциональных метрик. С учётом, что это рисунок, то не в РГБ.
В принципе я его понимаю со 2-й проблемой, у меня такой же вопрос встал, когда я точки продаж сравнивал, что в суммах, что в %, спичек продано на 1%, водки на 99%, в другом месте 2% и 98%. То в 2 раза больше, это на чуть-чуть. Решается статистикой как бы перпендикулярной, не по случайным величинам , а по динамике каждой из них. Но у него - цвет, и это совершенно меняет дело.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39892333
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
К вчерашнему могу добавиь, что выбор как бы метрики, диктуется задачей. Мож. там спец.изображения, но я писал для естественных цветов.
Кроме того, в своей задаче выделения движ. я искал регион синхронизации кадров как раз по энергетической метрике, ползая малым регионом по большему региону. Конечно в сферической задаче м.б. коллизии, несколько совпадений в разных местах. Тогда для арбитража нужен показатель кач-ва идентификации - я не использовал, игрушка ведь.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39892355
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98, замечал когда в youtube выкладывают видосы снятые с телефона, в особенности когда телефон
стоит вертикально - образуется рамка. Естественным образом. Изначально она - черная. Позже ее заполняют
программно каким-то цветом. Который экстраполирует края картинки.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39892464
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
В общем-то ответил уже, что думаю: если ковариация, то центрированные произведения, только сомнительна ценность вытягивания м-цы в строчку. Это по графической формуле.

Да. Работать надо сразу в декартовой системе. И корреляции счиать
учитывая геометрический порядок.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39892469
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98

Если на глаз, то мониторы у всех разные, автомат - вот тут и нужен формальный критерий. Имеются другие методы кроме корр. и ковар. Понимаешь, да? Параллельность 2-х векторов не всегда означает их совпадение. Для глаза подходит "энергетическое различие" в тех как раз координатах, что я писал выше. Но надо что-то масштабировать.

Я помню когда я был малой - смотрел телек у бабушки. Старый такой. "Горизонт" называется.
У него - куча аналоговых регулировок была. Я любил их крутить и наблюдать эффект.
Так вот на очень шумных каналах (где рябило от красных и синих снежинок) я убирал
цвет и получал довольно приличную ЧБ картинку.

Чуть позже (учась в универе) я почитал как работает система Secam. Под спектр цветовой яркости
она выделяет очень широкий диапазон частот в ЧМ. И под цвето-разностные диапазоны - более
экономные спектры в частотах повыше. Это было сделано из экономии и совместимости.

И тот эффект который я наблюдал в детстве - по сути отключение цвето-разностных каналов
в пользу черно-белого который был более устойчив к помехам.

В советском союзе миграция с ЧБ телевидения в цветное призошла без потерь для ЧБ приёмников.
Для них - конструктивно ничего не менялось. Но благодаря мегагерцным зазорам в диапазонах
можно было спокойно впихнуть цветовую информацию и не нарушить соседние каналы.
(Благо их было 3 штуки :)

Сходные принципы кстати исспользует JPEG.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39892538
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
exp98, замечал когда в youtube выкладывают видосы снятые с телефона, в особенности когда телефон
стоит вертикально - образуется рамка. Естественным образом. Изначально она - черная. Позже ее заполняют
программно каким-то цветом. Который экстраполирует края картинки.

Не могу найти название этого алгоритма. Или даже не алгоритма а фильтра видосов.

Кто знает?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39893137
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton, нет не знаю даже о чём этот вопрос(( может быть всё дело в громадном соотношении длины и ширины в смартах?

Что касается "цвето-разностные диапазоны". Ну в глазах у нас там колбочки и палочки. П - для интенсивности, К - для цветности. Их плотность по площади сетчатки разнится. Соотношение плотности П / плотность К выше к периферии. Отсюда сумеречное боковое зрение. Но П чувствительнее сами по себе. Ну что я буду пересказывать ...
И вообще, давно среди фотографов известно, если фиговый цветной снимок, то лучше уж его конвертнуть в серый ))
А то пр-во, что я продавливаю - во вложении, так как некогда сделал на пробу.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39893143
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ещё пару слов по ссылке по твоей. Всё забывал написать.
Что писал выше я, относится к случаю, когда типа одно изображение включает в себя другое с нек. погрешностями.
Но совсем другой случай, когда одно одновременно ещё масштабированная форма другого. Такое желательно знать наверняка.
Про повороты даже не говорю.
...
Рейтинг: 0 / 0
34 сообщений из 34, показаны все 2 страниц
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Определить наиболее влиятельные исходные данные в своде
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]