powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Выделение аномальных данных
17 сообщений из 17, страница 1 из 1
Выделение аномальных данных
    #33409161
dmitry_cmc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всем привет.

У меня вопрос по поводу нахождения в больших массивах данных аномальных значений (которые возникли в результате опечаток, неверно сданных отчетов наборщику, или просто по некоторым реальным причинам). Например, если в каком-то киоске в какой-то день было продано сверхбольшое кол-во товара.
Необходимо выделить подобные значения для проведения дальнейшего анализа.

Если кто-нибудь занимался этим (имеется ввиду автоматизирование этого процесса), поделитесь, пожалуйста, опытом. Интересует, как и теоретическая база, так и программная реализация.

p.s. Я решил, написать в данном разделе, так как мне кажется тут большинство людей занимается именно автоматизацией анализа данных
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409287
Фотография Валек
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
обычно данные проблемы должны решаться в oltp системе, ну а в msas либо перевыгружайте данные либо разбиваете на партиции со "стабильными" данными и изменяющимися. почитайте про виды инкрементного обновления кубов. пример который вы привели в нормальной системе просто не возможен ,видимо у вас присутствуют нарушения в процессе обработки данных и управления ими (почему к примеру продавцы умедрились продать количество товара больше чем на остатках, что дало сбой при продаже сверх количества)
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409358
Dmitry Biryukov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
1. возьмите топ 10 продаж и проверьте правильность чисел(повторять до полного удовлетворения)
2. проанализируйте продажи, с отклонением от предыдущего периода больше x% (x - от 10 до 30)
3. то же что и п.2, но анализ moving или running average

OLAP в этом случае хорош для визуального (графического) анализа пиков.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409390
dmitry_cmc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторпример который вы привели в нормальной системе просто не возможен ,видимо у вас присутствуют нарушения в процессе обработки данных и управления ими (почему к примеру продавцы умедрились продать количество товара больше чем на остатках, что дало сбой при продаже сверх количества)

Имелось ввиду несовсем это.

Бывают случаи, когда действительно продавцы продали большое кол-во товара в том или ином городе и т.д. Возможно это связано с дефицитом этого товара в этом городе (ну это пример из головы), какими-то коррупционными действиями (в случае сверхнизких продаж), или еще какими-то ненормальными явлениями в жизни.

Кстати просто "мусорные" данные также очень часто встречаются в "нормальных" системах, которые очень сложно выявить методами обычного сравнения. Как например выявить, что торговый представитель за день посетил 50 торговых точек, в то время как обычно он и его коллеги посещают не более 10-и на данной территории.

Или например, в каком то одном районе товар расходится сверх быстро. Что это - удачная реклама, или умелая политика местных супервайзеров (в таком случае у них есть чему поучиться) или это простая подгонка для получения бонусов.

Кроме того, очень часто в БД есть данные, которые просто никак нельзя проверить по бухгалтерии или еще по чему-то - те, которые отражаются субъективно.
А теперь представим, что связи центра с регионами весьма слабы.
Единственный способ раглядеть необычные случаи - анализ БД.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409422
dmitry_cmc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
автор3. то же что и п.2, но анализ moving или running average
а что это?
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409466
Сергей.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409552
Сергей.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Здесь немного написано что такое data mining
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409598
Dmitry Biryukov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dmitry_cmc автор3. то же что и п.2, но анализ moving или running average
а что это? среднее за несколько последних периодов. используется для сглаживания скачков. в мс ас это будет что-то типа AVG(LastPeriods(...),...)
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409600
Dmitry Biryukov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сергей.Вам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.DATA MINING системы выявляют закономертности, на множестве корректных данных. они не ищут аномалии. более того, если им скормить заведомо некорректные данные, то вы и получите мягко говоря не совсем верные результаты...
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409618
Сергей.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DATA MINING системы выявляют закономертности, на множестве корректных данных. они не ищут аномалии. более того, если им скормить заведомо некорректные данные, то вы и получите мягко говоря не совсем верные результаты...

Выявление закономерностей это только одно из применений. Иногда DATA MINING используют еще на первоначальном этапе построения хранилища данных для поиска мусора в самих данных и анализа источника.

Постараюсь найти статью где это кратко затронуто и описано.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409669
Сергей.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот статья где описано выявление именно аномалий в данных. Прошу сильно не пинать и не считать это рекламой компании SAS. Системами Data Mining занимаются разные фирмы, в том числе есть и российские разработки. Сложность в применении систем Data Mining в правильном построение модели.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409752
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 dmitry_cmc:

У меня вопрос по поводу нахождения в больших массивах данных аномальных значений

В свое время я сталкивался с подобной задачей, и решал ее в модуле Cognos Impromptu следующим образом: находил те значения, которые существенно отклоняются от среднего, с использованием контекстного расчета (то есть брал за основу не среднюю температуру по больнице, а вычислял среднее для каждой группы, например для каждого города отдельно, чтобы большие числа по Москве не заглушили слабовыраженные аномалии в Самаре). Также у Cognos есть модуль класса data mining - 4Thought - при загрузке в него данных его самообучающаяся нейросетевая модель автоматически выделяет аномальные значения.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409782
dmitry_cmc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
авторВам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.

Да, поиск аномальных данных можно назвать частью Data mining, хотя там больше уклон в поиск зависимостей и закономерностей.

Я не знаю как AS 2000 можно заставить искать аномалии, прямых методов для этого там нет.

Посмотрим, что есть 2005.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409784
dmitry_cmc
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii Также у Cognos есть модуль класса data mining - 4Thought - при загрузке в него данных его самообучающаяся нейросетевая модель автоматически выделяет аномальные значения.

Спасибо за информацию. Не знаете, этот модуль имеет возможность подключения не только к Cognos (как COM-объект или типа того)?
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33409800
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 dmitry_cmc:

Спасибо за информацию. Не знаете, этот модуль имеет возможность подключения не только к Cognos (как COM-объект или типа того)?

Насчет COM-объектности не скажу, надо будет проверить. А если Вы спрашиваете про то, что может ли 4Thought закачивать в себя данные из любых структурированных источников (РСУБД, плоские файлы), то могу сказать что может.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33410225
Сергей.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я не знаю как AS 2000 можно заставить искать аномалии, прямых методов для этого там нет.

То что в AS 2000 называют майнером это совсем не майнер к сожалению. Обычно это самодостаточные системы, работающие почти со всеми источниками данных от хранилищ до плоских таблиц.

Вот к примеру одна из систем рассчитанная на Win/Int архитектуру. Я ее живьем не видел и ничего конкретного сказать по ней к сожалению не могу.
...
Рейтинг: 0 / 0
Выделение аномальных данных
    #33418985
pnb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
pnb
Гость
Удаление аномалий, сглаживание, фильтрация, восстановление пропусков (т.е. очистка данных) - это операции, предшествующие Data Mining. Здесь автору топика интересен только первый этап - очистка данных. Только часть программных продуктов с функционалом Data Mining позволяют это делать.

Про мат.аппарат очистки данных, а так же пощупать как реализовано удаление аномалий можно на сайте www.basegroup.ru, там же вы скачаете ПО.
...
Рейтинг: 0 / 0
17 сообщений из 17, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Выделение аномальных данных
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]