Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
Всем привет. У меня вопрос по поводу нахождения в больших массивах данных аномальных значений (которые возникли в результате опечаток, неверно сданных отчетов наборщику, или просто по некоторым реальным причинам). Например, если в каком-то киоске в какой-то день было продано сверхбольшое кол-во товара. Необходимо выделить подобные значения для проведения дальнейшего анализа. Если кто-нибудь занимался этим (имеется ввиду автоматизирование этого процесса), поделитесь, пожалуйста, опытом. Интересует, как и теоретическая база, так и программная реализация. p.s. Я решил, написать в данном разделе, так как мне кажется тут большинство людей занимается именно автоматизацией анализа данных ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 16:57 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
обычно данные проблемы должны решаться в oltp системе, ну а в msas либо перевыгружайте данные либо разбиваете на партиции со "стабильными" данными и изменяющимися. почитайте про виды инкрементного обновления кубов. пример который вы привели в нормальной системе просто не возможен ,видимо у вас присутствуют нарушения в процессе обработки данных и управления ими (почему к примеру продавцы умедрились продать количество товара больше чем на остатках, что дало сбой при продаже сверх количества) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 17:31 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
1. возьмите топ 10 продаж и проверьте правильность чисел(повторять до полного удовлетворения) 2. проанализируйте продажи, с отклонением от предыдущего периода больше x% (x - от 10 до 30) 3. то же что и п.2, но анализ moving или running average OLAP в этом случае хорош для визуального (графического) анализа пиков. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 17:44 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
авторпример который вы привели в нормальной системе просто не возможен ,видимо у вас присутствуют нарушения в процессе обработки данных и управления ими (почему к примеру продавцы умедрились продать количество товара больше чем на остатках, что дало сбой при продаже сверх количества) Имелось ввиду несовсем это. Бывают случаи, когда действительно продавцы продали большое кол-во товара в том или ином городе и т.д. Возможно это связано с дефицитом этого товара в этом городе (ну это пример из головы), какими-то коррупционными действиями (в случае сверхнизких продаж), или еще какими-то ненормальными явлениями в жизни. Кстати просто "мусорные" данные также очень часто встречаются в "нормальных" системах, которые очень сложно выявить методами обычного сравнения. Как например выявить, что торговый представитель за день посетил 50 торговых точек, в то время как обычно он и его коллеги посещают не более 10-и на данной территории. Или например, в каком то одном районе товар расходится сверх быстро. Что это - удачная реклама, или умелая политика местных супервайзеров (в таком случае у них есть чему поучиться) или это простая подгонка для получения бонусов. Кроме того, очень часто в БД есть данные, которые просто никак нельзя проверить по бухгалтерии или еще по чему-то - те, которые отражаются субъективно. А теперь представим, что связи центра с регионами весьма слабы. Единственный способ раглядеть необычные случаи - анализ БД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 17:51 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
автор3. то же что и п.2, но анализ moving или running average а что это? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 17:59 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
Вам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 18:09 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
Здесь немного написано что такое data mining ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 18:39 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
dmitry_cmc автор3. то же что и п.2, но анализ moving или running average а что это? среднее за несколько последних периодов. используется для сглаживания скачков. в мс ас это будет что-то типа AVG(LastPeriods(...),...) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 18:57 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
Сергей.Вам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.DATA MINING системы выявляют закономертности, на множестве корректных данных. они не ищут аномалии. более того, если им скормить заведомо некорректные данные, то вы и получите мягко говоря не совсем верные результаты... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 18:58 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
DATA MINING системы выявляют закономертности, на множестве корректных данных. они не ищут аномалии. более того, если им скормить заведомо некорректные данные, то вы и получите мягко говоря не совсем верные результаты... Выявление закономерностей это только одно из применений. Иногда DATA MINING используют еще на первоначальном этапе построения хранилища данных для поиска мусора в самих данных и анализа источника. Постараюсь найти статью где это кратко затронуто и описано. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 19:07 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
Вот статья где описано выявление именно аномалий в данных. Прошу сильно не пинать и не считать это рекламой компании SAS. Системами Data Mining занимаются разные фирмы, в том числе есть и российские разработки. Сложность в применении систем Data Mining в правильном построение модели. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 19:33 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
2 dmitry_cmc: У меня вопрос по поводу нахождения в больших массивах данных аномальных значений В свое время я сталкивался с подобной задачей, и решал ее в модуле Cognos Impromptu следующим образом: находил те значения, которые существенно отклоняются от среднего, с использованием контекстного расчета (то есть брал за основу не среднюю температуру по больнице, а вычислял среднее для каждой группы, например для каждого города отдельно, чтобы большие числа по Москве не заглушили слабовыраженные аномалии в Самаре). Также у Cognos есть модуль класса data mining - 4Thought - при загрузке в него данных его самообучающаяся нейросетевая модель автоматически выделяет аномальные значения. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 20:40 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
авторВам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность. Да, поиск аномальных данных можно назвать частью Data mining, хотя там больше уклон в поиск зависимостей и закономерностей. Я не знаю как AS 2000 можно заставить искать аномалии, прямых методов для этого там нет. Посмотрим, что есть 2005. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 21:16 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
Jurii Также у Cognos есть модуль класса data mining - 4Thought - при загрузке в него данных его самообучающаяся нейросетевая модель автоматически выделяет аномальные значения. Спасибо за информацию. Не знаете, этот модуль имеет возможность подключения не только к Cognos (как COM-объект или типа того)? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 21:20 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
2 dmitry_cmc: Спасибо за информацию. Не знаете, этот модуль имеет возможность подключения не только к Cognos (как COM-объект или типа того)? Насчет COM-объектности не скажу, надо будет проверить. А если Вы спрашиваете про то, что может ли 4Thought закачивать в себя данные из любых структурированных источников (РСУБД, плоские файлы), то могу сказать что может. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.11.2005, 21:48 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
Я не знаю как AS 2000 можно заставить искать аномалии, прямых методов для этого там нет. То что в AS 2000 называют майнером это совсем не майнер к сожалению. Обычно это самодостаточные системы, работающие почти со всеми источниками данных от хранилищ до плоских таблиц. Вот к примеру одна из систем рассчитанная на Win/Int архитектуру. Я ее живьем не видел и ничего конкретного сказать по ней к сожалению не могу. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 01.12.2005, 09:40 |
|
||
|
Выделение аномальных данных
|
|||
|---|---|---|---|
|
#18+
Удаление аномалий, сглаживание, фильтрация, восстановление пропусков (т.е. очистка данных) - это операции, предшествующие Data Mining. Здесь автору топика интересен только первый этап - очистка данных. Только часть программных продуктов с функционалом Data Mining позволяют это делать. Про мат.аппарат очистки данных, а так же пощупать как реализовано удаление аномалий можно на сайте www.basegroup.ru, там же вы скачаете ПО. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 06.12.2005, 11:39 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=33409669&tid=1870791]: |
0ms |
get settings: |
8ms |
get forum list: |
8ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
42ms |
get topic data: |
6ms |
get forum data: |
1ms |
get page messages: |
30ms |
get tp. blocked users: |
1ms |
| others: | 254ms |
| total: | 354ms |

| 0 / 0 |
