powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Определить наиболее влиятельные исходные данные в своде
25 сообщений из 34, страница 1 из 2
Определить наиболее влиятельные исходные данные в своде
    #39886204
love_bach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дано:
Имеется таблица исходных числовых (целые неотрицательные) данных a ij . Столбцы упорядочены
B 1 B 2 ...B M A 1 a 11 a 12 ...a 1M A 2 a 21 a 22 ...a 2M ...............A N a N1 a N2 ...a NM

По ней строится сводная таблица, суммированием по строкам
B 1 B 2 ...B M SUMSUM(a i1 )SUM(a i2 )...SUM(a iM )
которую можно рассматривать как функцию

Код: sql
1.
F:{1, 2,..., M} -> N



Функция F может иметь скачки вверх/вниз, которые на графике функции видно "на глаз" - они "сильно" отличаются от других соседних значений функции.

Требуется:
Для скачков определить исходные данные - подмножество заголовков строк исходной таблицы, - которые внесли в скачек наибольший вклад

Подскажите, пожалуйста, куда копать, какие методы анализа использовать?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886210
Gennadiy Usov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Скачёк имеет место на одну строку или на несколько строк ("плавный холм")?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886217
love_bach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Gennadiy Usov
Скачёк имеет место на одну строку или на несколько строк ("плавный холм")?


на несколько строк
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886308
Gennadiy Usov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
А от чего сильно отличается: прямая, кривая, парабола, ....

На первый взгляд нужна аппроксимация значений F.
И сравнение значений F с новой формулой.

Либо искать диапазоны, где разные последовательные разности по знаку +-("производная для F").
Тогда холм.
Чем больше последовательных +-, тем выше холм.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886501
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach, нарисуй характерный(ые) пример(ы) таблицы(15х15), график и определи типы скачков.
Что такое "скачок"?
одиночный выброс(1 2 3 4 99 5 6 7 8),
ступенька (сигмоидная)
ступенька(пьедестал за 1-3 места в спорте)
треугольник, трапеция
всё это только вверх или м.б. вниз?
если типа ступеньки, то насколько должны отличаться высота(глубина) слева и справа, чтобы признать скачком ?..

А вообще в матане есть всё достаточное:
производная=наклон прямой,
ну,или в принципе типа одномерной EDGE()
ИМХО, "высота скачка" относительна,она зависит от соседних столбов, а не только от одного. Соответственно, одна и та же строка может дать разную долю в разные скачки. И как тогда считать, абсолютный вклад или в % ?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886596
love_bach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
love_bach, нарисуй характерный(ые) пример(ы) таблицы(15х15), график и определи типы скачков.
Что такое "скачок"?
одиночный выброс(1 2 3 4 99 5 6 7 8),
ступенька (сигмоидная)
ступенька(пьедестал за 1-3 места в спорте)
треугольник, трапеция
всё это только вверх или м.б. вниз?
если типа ступеньки, то насколько должны отличаться высота(глубина) слева и справа, чтобы признать скачком ?..

А вообще в матане есть всё достаточное:
производная=наклон прямой,
ну,или в принципе типа одномерной EDGE()
ИМХО, "высота скачка" относительна,она зависит от соседних столбов, а не только от одного. Соответственно, одна и та же строка может дать разную долю в разные скачки. И как тогда считать, абсолютный вклад или в % ?


эти все вопросы я себе задавал, хотелось бы на них ответы получить исходя из

love_bachФункция F может иметь скачки вверх/вниз, которые на графике функции видно "на глаз" - они "сильно" отличаются от других соседних значений функции.



PS
про "производную=наклон" я тоже знаю
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886679
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach, коль скоро вам всё известно, то ответ на единственный вопрос
авторкакие методы анализане должен вызывать затруднений.
Уже упомянуто: по типу EDGE - копать в матан, но, похоже, что этот звук прошёл мимо чьих-то ушей. Ещё СКО - копать в обработку временнЫх рядов.
Вместо ТСа я сам приведу пример.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886683
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дополнительно спрашиваю: есть понимание того, как определять "соседние" значения ?
как определять "сильно отличается" уже намёкнуто, это не единственные споосбы, может зависеть от происхождения процесса,от потребностей, даже от объёма данных, не говоря уже об их величине в привязке к компу.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886796
love_bach
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
Дополнительно спрашиваю: есть понимание того, как определять "соседние" значения ?
как определять "сильно отличается" уже намёкнуто, это не единственные споосбы


нет понимания, это является частью задачи
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886824
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach
нет понимания, это является частью задачи

Берёшь окно, вычисляешь в нём среднее, определяешь девиацию целевой функции. При превышении этой девиацией некоторого порогового значения, диагностируешь "скачок". После чего определяешь девиации заголовков и считаешь, что в скачок наибольший вклад внесли те, у которых они самые большие. Если скачок на всём пространстве заведомо один, то и окном можно считать всё пространство. Но возможно, его придётся нормализовать по аппроксимирующей функции как уже сказали выше.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886909
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov,
пусть характерный пример выложит, может там и считать нечего. Потому как в моём примере на вопрос "сколько там скачков?" ответов будет столько же как отвечающих. Потому как мне там нужны были необязательно "горбы", а для кого-то там только один (широкий центральный) скачок.

Ктому же для большого кол-ва данных обычно нужна плавающая дисперсия и плавающее среднее. В экономических задачах чаще всего именно так, хотя не обязательно. Для преобразования Ф тоже желательно снять средний тренд, а их столько же видов сколько отвечающих.
Можно вычесть плавающее робастное среднее (желательно смещённое), а ту единственнуо оставшуюся огромную амплитуду назначить скачком (хорошо бы она была выше хотя бы 1 СКО). Да много разных приёмов можно навертеть.
А у ТС наверняка что-то учебное, типа психолого-социологического. И трудно представить сводную таблицу в сотни и тысячи колонок. Бывают, конечно, но и класс задач тогда соответствует. Аздесь ведь Тайна ... А потом он(она) попорсит эллипс рассеяния построить для выбора главных компонент)), тоже метод.

И, да, ТСе лучше уточнить постановку у препа.
А здесь для начала пример, начальные действия, затруднения, если не спешно. Тем более пишет, что "на глаз всё видит, только сказать не может".
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886971
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Можно попробовать наложить на строку вейвлетик. Подвигать вправо-влево. Подвигать период. И когда скалярное произведение
даст величину выше порога - зафиксировать амплитуду и период всплеска.

Есть мысль что нейронная с учителем сделает это более ... технично. От пользователя надо просто
вручную указать мышкой "интересные точки". И учебная выборка также должна содержать
ложные ряды где 100% нет интересных точек. Чтобы не было ложных срабатываний и переобучений.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886977
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach,

вторая производная на границе разделения равна нулю
дальше просто объединяешь участки, которые "не сильно отличаются"
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39886997
Gennadiy Usov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
kealon(Ruslan)
love_bach,
вторая производная на границе разделения равна нулю
дальше просто объединяешь участки, которые "не сильно отличаются"
Ошибка.

У графика x^3 в точке 0 тоже 2-я производная равна 0, а "границы разделения" нет.

Есть что-то другое, может быть для задачи тоже интересное.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39887037
kealon(Ruslan)
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Gennadiy Usov,

в общем то там и есть, 0 как раз делит на два разнородных участка
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39887124
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
love_bach, а есть живые тестовые данные?
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39887770
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton, тухляк. Аналогично недавнему "контуру". Уверен, там что-нить типа 50 товарных групп, либо 20 филиалов, либо 12 месяцев. Ничего по-настоящему прецезионного, можно и отсебятину, +- сотню млн $.

Безотносительно ко всему предыдущему, рецепт для желающих:
Откуда взять данные, чтоб прочувствовать ситуации?
-Берём боле-мене контрастныое фото.
- Суммируем (в сером цвете либо одну координату) каждый столб(строку).
-Полученный массив нормируем до вменяемо небольших значений.
-Смотрим график, вибираем на нём интересный участок.
-Тренируемся.
К слову, график выше так примерно и сделан.

-Предварительно, договариваемся, что точки независимы, выбираем вариант направления обработки в одну сторону либо индифферентно 2-сторонний (т.к. влияний из будущего для времени не д.б.).
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889229
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Во времена модемных интернетов я заинтересовался как восстановить повреждённые картинки JPG.
У них обычно один фрейм (кубик 8х8) очень резко менял цвет и как-то выпадал из общего фона.

Тогда придумал тот-же анализ Фурье соседних кубиков. С каким-то усреднением.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889290
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Между прочим, если речь только о заметном изменении оттенка (не столько об интенсивности), то можно было попробовать пронумеровать оттенки ~30(или меньше)=3*10 низкой интенсивности, средней и высокой. Там, где номер делает скачок .... и никаких заморочек с Ф.
Только для лучшей линейности в индексах ргб нужно переводить в более равномерную сетку спец. нелинейным преобразованием. Я делал такой перевод на топокартах 256ргб. Без этого всё было плохо.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889303
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Там надо не скачок считать а угол поворота в полярных координатах. Потому как на краях
красный и синий заворачиваются в фиолетовый.

...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889562
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну, не скажу наверняка. Имел ввиду, что соседние регионы, их средние (по твоим словам) не сильно отличаются, а один выделяется по тону. Вот по среднему притянуть к индексу (вроде постеризации). Близкие регионы будут с одним индексом, а этот с другим. Про скачок плохо сказал, надо попробовать, не умозрительно как я.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889572
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Если дашь пример с плохим регионом, я попробую. А то ведь я не знаю, насколько он должен выделяться.
А мне не говори, пусть загадкой будет.Только пусть честные 8х8, т.е. не смещённые, иначе метод не сработает скорее всего.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889737
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ОК. Я поищу. Пока нахожу такой артефакт что вся картинка после битого фрейма как-бы сдвинулась вправо или влево
и окрасилась во все цвета радуги.

Тот артефакт единичного квадратика не могу найти.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39889882
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А мож он просто по периметру контрастировал, вот и показалось, что цвет не тот. Например поворт на 90.
...
Рейтинг: 0 / 0
Определить наиболее влиятельные исходные данные в своде
    #39891955
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98, что ты думашь об этом топике в тостере https://toster.ru/q/685557

Мне кажется - вопрос интересный.
...
Рейтинг: 0 / 0
25 сообщений из 34, страница 1 из 2
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Определить наиболее влиятельные исходные данные в своде
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]