Выделение аномальных данных / OLAP и DWH

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Выделение аномальных данных

17 сообщений из 17, страница 1 из 1

Выделение аномальных данных

#33409161

dmitry_cmc

Участник

Сообщения: 140

Рейтинг: 0 / 0

Всем привет.

У меня вопрос по поводу нахождения в больших массивах данных аномальных значений (которые возникли в результате опечаток, неверно сданных отчетов наборщику, или просто по некоторым реальным причинам). Например, если в каком-то киоске в какой-то день было продано сверхбольшое кол-во товара.
Необходимо выделить подобные значения для проведения дальнейшего анализа.

Если кто-нибудь занимался этим (имеется ввиду автоматизирование этого процесса), поделитесь, пожалуйста, опытом. Интересует, как и теоретическая база, так и программная реализация.

p.s. Я решил, написать в данном разделе, так как мне кажется тут большинство людей занимается именно автоматизацией анализа данных

...

Рейтинг:

0 / 0

30.11.2005, 16:57

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409287

Валек

Участник

Откуда: РА

Сообщения: 460

Рейтинг: 0 / 0

обычно данные проблемы должны решаться в oltp системе, ну а в msas либо перевыгружайте данные либо разбиваете на партиции со "стабильными" данными и изменяющимися. почитайте про виды инкрементного обновления кубов. пример который вы привели в нормальной системе просто не возможен ,видимо у вас присутствуют нарушения в процессе обработки данных и управления ими (почему к примеру продавцы умедрились продать количество товара больше чем на остатках, что дало сбой при продаже сверх количества)

...

Рейтинг:

0 / 0

30.11.2005, 17:31

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409358

Dmitry Biryukov

Участник

Откуда: Женева

Сообщения: 1 617

Рейтинг: 0 / 0

1. возьмите топ 10 продаж и проверьте правильность чисел(повторять до полного удовлетворения)
2. проанализируйте продажи, с отклонением от предыдущего периода больше x% (x - от 10 до 30)
3. то же что и п.2, но анализ moving или running average

OLAP в этом случае хорош для визуального (графического) анализа пиков.

...

Рейтинг:

0 / 0

30.11.2005, 17:44

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409390

dmitry_cmc

Участник

Сообщения: 140

Рейтинг: 0 / 0

авторпример который вы привели в нормальной системе просто не возможен ,видимо у вас присутствуют нарушения в процессе обработки данных и управления ими (почему к примеру продавцы умедрились продать количество товара больше чем на остатках, что дало сбой при продаже сверх количества)

Имелось ввиду несовсем это.

Бывают случаи, когда действительно продавцы продали большое кол-во товара в том или ином городе и т.д. Возможно это связано с дефицитом этого товара в этом городе (ну это пример из головы), какими-то коррупционными действиями (в случае сверхнизких продаж), или еще какими-то ненормальными явлениями в жизни.

Кстати просто "мусорные" данные также очень часто встречаются в "нормальных" системах, которые очень сложно выявить методами обычного сравнения. Как например выявить, что торговый представитель за день посетил 50 торговых точек, в то время как обычно он и его коллеги посещают не более 10-и на данной территории.

Или например, в каком то одном районе товар расходится сверх быстро. Что это - удачная реклама, или умелая политика местных супервайзеров (в таком случае у них есть чему поучиться) или это простая подгонка для получения бонусов.

Кроме того, очень часто в БД есть данные, которые просто никак нельзя проверить по бухгалтерии или еще по чему-то - те, которые отражаются субъективно.
А теперь представим, что связи центра с регионами весьма слабы.
Единственный способ раглядеть необычные случаи - анализ БД.

...

Рейтинг:

0 / 0

30.11.2005, 17:51

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409422

dmitry_cmc

Участник

Сообщения: 140

Рейтинг: 0 / 0

автор3. то же что и п.2, но анализ moving или running average
а что это?

...

Рейтинг:

0 / 0

30.11.2005, 17:59

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409466

Сергей.

Участник

Сообщения: 337

Рейтинг: 0 / 0

Вам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.

...

Рейтинг:

0 / 0

30.11.2005, 18:09

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409552

Сергей.

Участник

Сообщения: 337

Рейтинг: 0 / 0

Здесь немного написано что такое data mining

...

Рейтинг:

0 / 0

30.11.2005, 18:39

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409598

Dmitry Biryukov

Участник

Откуда: Женева

Сообщения: 1 617

Рейтинг: 0 / 0

dmitry_cmc автор3. то же что и п.2, но анализ moving или running average
а что это? среднее за несколько последних периодов. используется для сглаживания скачков. в мс ас это будет что-то типа AVG(LastPeriods(...),...)

...

Рейтинг:

0 / 0

30.11.2005, 18:57

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409600

Dmitry Biryukov

Участник

Откуда: Женева

Сообщения: 1 617

Рейтинг: 0 / 0

Сергей.Вам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.DATA MINING системы выявляют закономертности, на множестве корректных данных. они не ищут аномалии. более того, если им скормить заведомо некорректные данные, то вы и получите мягко говоря не совсем верные результаты...

...

Рейтинг:

0 / 0

30.11.2005, 18:58

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409618

Сергей.

Участник

Сообщения: 337

Рейтинг: 0 / 0

DATA MINING системы выявляют закономертности, на множестве корректных данных. они не ищут аномалии. более того, если им скормить заведомо некорректные данные, то вы и получите мягко говоря не совсем верные результаты...

Выявление закономерностей это только одно из применений. Иногда DATA MINING используют еще на первоначальном этапе построения хранилища данных для поиска мусора в самих данных и анализа источника.

Постараюсь найти статью где это кратко затронуто и описано.

...

Рейтинг:

0 / 0

30.11.2005, 19:07

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409669

Сергей.

Участник

Сообщения: 337

Рейтинг: 0 / 0

Вот статья где описано выявление именно аномалий в данных. Прошу сильно не пинать и не считать это рекламой компании SAS. Системами Data Mining занимаются разные фирмы, в том числе есть и российские разработки. Сложность в применении систем Data Mining в правильном построение модели.

...

Рейтинг:

0 / 0

30.11.2005, 19:33

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409752

Jurii

Участник

Откуда: Moscow http://cognos.narod.ru

Сообщения: 2 966

Рейтинг: 0 / 0

2 dmitry_cmc:

У меня вопрос по поводу нахождения в больших массивах данных аномальных значений

В свое время я сталкивался с подобной задачей, и решал ее в модуле Cognos Impromptu следующим образом: находил те значения, которые существенно отклоняются от среднего, с использованием контекстного расчета (то есть брал за основу не среднюю температуру по больнице, а вычислял среднее для каждой группы, например для каждого города отдельно, чтобы большие числа по Москве не заглушили слабовыраженные аномалии в Самаре). Также у Cognos есть модуль класса data mining - 4Thought - при загрузке в него данных его самообучающаяся нейросетевая модель автоматически выделяет аномальные значения.

...

Рейтинг:

0 / 0

30.11.2005, 20:40

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409782

dmitry_cmc

Участник

Сообщения: 140

Рейтинг: 0 / 0

авторВам нужно смотреть в сторону DATA MINING систем. Они работают поверх хранилищ данных, на данных хранилища. OLAP это только отчетность.

Да, поиск аномальных данных можно назвать частью Data mining, хотя там больше уклон в поиск зависимостей и закономерностей.

Я не знаю как AS 2000 можно заставить искать аномалии, прямых методов для этого там нет.

Посмотрим, что есть 2005.

...

Рейтинг:

0 / 0

30.11.2005, 21:16

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409784

dmitry_cmc

Участник

Сообщения: 140

Рейтинг: 0 / 0

Jurii Также у Cognos есть модуль класса data mining - 4Thought - при загрузке в него данных его самообучающаяся нейросетевая модель автоматически выделяет аномальные значения.

Спасибо за информацию. Не знаете, этот модуль имеет возможность подключения не только к Cognos (как COM-объект или типа того)?

...

Рейтинг:

0 / 0

30.11.2005, 21:20

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33409800

Jurii

Участник

Откуда: Moscow http://cognos.narod.ru

Сообщения: 2 966

Рейтинг: 0 / 0

2 dmitry_cmc:

Спасибо за информацию. Не знаете, этот модуль имеет возможность подключения не только к Cognos (как COM-объект или типа того)?

Насчет COM-объектности не скажу, надо будет проверить. А если Вы спрашиваете про то, что может ли 4Thought закачивать в себя данные из любых структурированных источников (РСУБД, плоские файлы), то могу сказать что может.

...

Рейтинг:

0 / 0

30.11.2005, 21:48

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33410225

Сергей.

Участник

Сообщения: 337

Рейтинг: 0 / 0

Я не знаю как AS 2000 можно заставить искать аномалии, прямых методов для этого там нет.

То что в AS 2000 называют майнером это совсем не майнер к сожалению. Обычно это самодостаточные системы, работающие почти со всеми источниками данных от хранилищ до плоских таблиц.

Вот к примеру одна из систем рассчитанная на Win/Int архитектуру. Я ее живьем не видел и ничего конкретного сказать по ней к сожалению не могу.

...

Рейтинг:

0 / 0

01.12.2005, 09:40

| Ответить | Цитировать | Написать

Выделение аномальных данных

#33418985

pnb

Гость

Удаление аномалий, сглаживание, фильтрация, восстановление пропусков (т.е. очистка данных) - это операции, предшествующие Data Mining. Здесь автору топика интересен только первый этап - очистка данных. Только часть программных продуктов с функционалом Data Mining позволяют это делать.

Про мат.аппарат очистки данных, а так же пощупать как реализовано удаление аномалий можно на сайте www.basegroup.ru, там же вы скачаете ПО.

...

Рейтинг:

0 / 0

06.12.2005, 11:39

| Ответить | Цитировать | Написать

17 сообщений из 17, страница 1 из 1

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Выделение аномальных данных

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=49&msg=33409669&tid=1870791]:	0ms
get settings:	8ms
get forum list:	8ms
check forum access:	2ms
check topic access:	2ms
track hit:	42ms
get topic data:	6ms
get forum data:	1ms
get page messages:	30ms
get tp. blocked users:	1ms
others:	254ms

total:	354ms