Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Выделение аномальных данных / 17 сообщений из 17, страница 1 из 1
30.11.2005, 16:57
    #33409161
dmitry_cmc
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
Всем привет.

У меня вопрос по поводу нахождения в больших массивах данных аномальных значений (которые возникли в результате опечаток, неверно сданных отчетов наборщику, или просто по некоторым реальным причинам). Например, если в каком-то киоске в какой-то день было продано сверхбольшое кол-во товара.
Необходимо выделить подобные значения для проведения дальнейшего анализа.

Если кто-нибудь занимался этим (имеется ввиду автоматизирование этого процесса), поделитесь, пожалуйста, опытом. Интересует, как и теоретическая база, так и программная реализация.

p.s. Я решил, написать в данном разделе, так как мне кажется тут большинство людей занимается именно автоматизацией анализа данных
...
Рейтинг: 0 / 0
30.11.2005, 17:31
    #33409287
Валек
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
обычно данные проблемы должны решаться в oltp системе, ну а в msas либо перевыгружайте данные либо разбиваете на партиции со "стабильными" данными и изменяющимися. почитайте про виды инкрементного обновления кубов. пример который вы привели в нормальной системе просто не возможен ,видимо у вас присутствуют нарушения в процессе обработки данных и управления ими (почему к примеру продавцы умедрились продать количество товара больше чем на остатках, что дало сбой при продаже сверх количества)
...
Рейтинг: 0 / 0
30.11.2005, 17:44
    #33409358
Dmitry Biryukov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
1. возьмите топ 10 продаж и проверьте правильность чисел(повторять до полного удовлетворения)
2. проанализируйте продажи, с отклонением от предыдущего периода больше x% (x - от 10 до 30)
3. то же что и п.2, но анализ moving или running average

OLAP в этом случае хорош для визуального (графического) анализа пиков.
...
Рейтинг: 0 / 0
30.11.2005, 17:51
    #33409390
dmitry_cmc
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
авторпример который вы привели в нормальной системе просто не возможен ,видимо у вас присутствуют нарушения в процессе обработки данных и управления ими (почему к примеру продавцы умедрились продать количество товара больше чем на остатках, что дало сбой при продаже сверх количества)

Имелось ввиду несовсем это.

Бывают случаи, когда действительно продавцы продали большое кол-во товара в том или ином городе и т.д. Возможно это связано с дефицитом этого товара в этом городе (ну это пример из головы), какими-то коррупционными действиями (в случае сверхнизких продаж), или еще какими-то ненормальными явлениями в жизни.

Кстати просто "мусорные" данные также очень часто встречаются в "нормальных" системах, которые очень сложно выявить методами обычного сравнения. Как например выявить, что торговый представитель за день посетил 50 торговых точек, в то время как обычно он и его коллеги посещают не более 10-и на данной территории.

Или например, в каком то одном районе товар расходится сверх быстро. Что это - удачная реклама, или умелая политика местных супервайзеров (в таком случае у них есть чему поучиться) или это простая подгонка для получения бонусов.

Кроме того, очень часто в БД есть данные, которые просто никак нельзя проверить по бухгалтерии или еще по чему-то - те, которые отражаются субъективно.
А теперь представим, что связи центра с регионами весьма слабы.
Единственный способ раглядеть необычные случаи - анализ БД.
...
Рейтинг: 0 / 0
30.11.2005, 17:59
    #33409422
dmitry_cmc
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
автор3. то же что и п.2, но анализ moving или running average
а что это?
...
Рейтинг: 0 / 0
30.11.2005, 18:09
    #33409466
Сергей.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
Вам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.
...
Рейтинг: 0 / 0
30.11.2005, 18:39
    #33409552
Сергей.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
Здесь немного написано что такое data mining
...
Рейтинг: 0 / 0
30.11.2005, 18:57
    #33409598
Dmitry Biryukov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
dmitry_cmc автор3. то же что и п.2, но анализ moving или running average
а что это? среднее за несколько последних периодов. используется для сглаживания скачков. в мс ас это будет что-то типа AVG(LastPeriods(...),...)
...
Рейтинг: 0 / 0
30.11.2005, 18:58
    #33409600
Dmitry Biryukov
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
Сергей.Вам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.DATA MINING системы выявляют закономертности, на множестве корректных данных. они не ищут аномалии. более того, если им скормить заведомо некорректные данные, то вы и получите мягко говоря не совсем верные результаты...
...
Рейтинг: 0 / 0
30.11.2005, 19:07
    #33409618
Сергей.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
DATA MINING системы выявляют закономертности, на множестве корректных данных. они не ищут аномалии. более того, если им скормить заведомо некорректные данные, то вы и получите мягко говоря не совсем верные результаты...

Выявление закономерностей это только одно из применений. Иногда DATA MINING используют еще на первоначальном этапе построения хранилища данных для поиска мусора в самих данных и анализа источника.

Постараюсь найти статью где это кратко затронуто и описано.
...
Рейтинг: 0 / 0
30.11.2005, 19:33
    #33409669
Сергей.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
Вот статья где описано выявление именно аномалий в данных. Прошу сильно не пинать и не считать это рекламой компании SAS. Системами Data Mining занимаются разные фирмы, в том числе есть и российские разработки. Сложность в применении систем Data Mining в правильном построение модели.
...
Рейтинг: 0 / 0
30.11.2005, 20:40
    #33409752
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
2 dmitry_cmc:

У меня вопрос по поводу нахождения в больших массивах данных аномальных значений

В свое время я сталкивался с подобной задачей, и решал ее в модуле Cognos Impromptu следующим образом: находил те значения, которые существенно отклоняются от среднего, с использованием контекстного расчета (то есть брал за основу не среднюю температуру по больнице, а вычислял среднее для каждой группы, например для каждого города отдельно, чтобы большие числа по Москве не заглушили слабовыраженные аномалии в Самаре). Также у Cognos есть модуль класса data mining - 4Thought - при загрузке в него данных его самообучающаяся нейросетевая модель автоматически выделяет аномальные значения.
...
Рейтинг: 0 / 0
30.11.2005, 21:16
    #33409782
dmitry_cmc
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
авторВам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.

Да, поиск аномальных данных можно назвать частью Data mining, хотя там больше уклон в поиск зависимостей и закономерностей.

Я не знаю как AS 2000 можно заставить искать аномалии, прямых методов для этого там нет.

Посмотрим, что есть 2005.
...
Рейтинг: 0 / 0
30.11.2005, 21:20
    #33409784
dmitry_cmc
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
Jurii Также у Cognos есть модуль класса data mining - 4Thought - при загрузке в него данных его самообучающаяся нейросетевая модель автоматически выделяет аномальные значения.

Спасибо за информацию. Не знаете, этот модуль имеет возможность подключения не только к Cognos (как COM-объект или типа того)?
...
Рейтинг: 0 / 0
30.11.2005, 21:48
    #33409800
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
2 dmitry_cmc:

Спасибо за информацию. Не знаете, этот модуль имеет возможность подключения не только к Cognos (как COM-объект или типа того)?

Насчет COM-объектности не скажу, надо будет проверить. А если Вы спрашиваете про то, что может ли 4Thought закачивать в себя данные из любых структурированных источников (РСУБД, плоские файлы), то могу сказать что может.
...
Рейтинг: 0 / 0
01.12.2005, 09:40
    #33410225
Сергей.
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
Я не знаю как AS 2000 можно заставить искать аномалии, прямых методов для этого там нет.

То что в AS 2000 называют майнером это совсем не майнер к сожалению. Обычно это самодостаточные системы, работающие почти со всеми источниками данных от хранилищ до плоских таблиц.

Вот к примеру одна из систем рассчитанная на Win/Int архитектуру. Я ее живьем не видел и ничего конкретного сказать по ней к сожалению не могу.
...
Рейтинг: 0 / 0
06.12.2005, 11:39
    #33418985
pnb
pnb
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Выделение аномальных данных
Удаление аномалий, сглаживание, фильтрация, восстановление пропусков (т.е. очистка данных) - это операции, предшествующие Data Mining. Здесь автору топика интересен только первый этап - очистка данных. Только часть программных продуктов с функционалом Data Mining позволяют это делать.

Про мат.аппарат очистки данных, а так же пощупать как реализовано удаление аномалий можно на сайте www.basegroup.ru, там же вы скачаете ПО.
...
Рейтинг: 0 / 0
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Выделение аномальных данных / 17 сообщений из 17, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]