Проверка Data mining-модели на простом примере (MS AS) / OLAP и DWH

ReSQL.ru

2.0.60

Планшетная версия Контакт Правила FAQ Помощь

Гость

Войти | Профиль | Очистить

Нов. | Гор. | Избр.

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Действия ...

Доб. в избранное
Игнор. тему
Прикреп. тему
Пометить прочит. / непрочит.
Фильтр:
Сообщения автора темы
Сообщение содержит вложения
Сообщение содержит картинки
Сообщение содержит видеоклипы
Сообщение содержит аудиоклипы
Сообщение содержит картинки или видео 18+

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Проверка Data mining-модели на простом примере (MS AS) / 6 сообщений из 6, страница 1 из 1

07.05.2004, 18:15

#32511111

Максим Галимов

Гость

Проверка Data mining-модели на простом примере (MS AS)

Надеюсь, задаю вопрос, волнующий многих, начинающих знакомиться с Microsoft Analysis Services.
Есть таблица фактов примерно - и упрощенно - следующего содержания:

Дата

День недели

Подразделение

Работник

Вид затрат

Проект

План

Отработанные часы

ИД операции

Пытаюсь понять, как работает data mining-модель decisions trees. Хочу, например, выяснить, каким образом зависит день недели от вида затрат и подразделения. (Вопрос, который я задаю, в отношении data mining-подхода должен звучать, наверное, так: "Что и каким образом определяет загруженность персонала в тот или иной день недели").

Если я строю Relational Data Mining Model, то получается очень даже неплохо: я День недели делаю predictable (предсказываемым) параметром, в качестве входов подаю Отработанные часы , Подразделение и Вид затрат , а в качестве идентификатора события (случая, транзакции, операции - короче, case), беру ИД операции . После обсчета получаю набор вполне внятных условий:

Код: plaintext

1.
2.
3.
4.
5.

All - Вид затрат=Накладные расходы  - Подразделение=Отдел техобеспечения
			         - Подразделение<>Отдел техобеспечения - Подразделение=АХЧ
			                                               - Подразделение<>АХЧ
    - Вид затрат<>Накладные расходы - Подразделение=Отдел внедрения
	                           - Подразделение<>Отдел внедрения

Причем получаю заметно разное распределение весов разных дней недели для разных вариантов (например, АХЧ работает равномерно практически все дни - сторожа работают все время, в то время как "Не отдел внедрения" работает четко только с понедельника по пятницу, т.к. не имеет авралов).

В-общем, красота (за исключением, пожалуй одного момента - как MS AS догадался, что часы нужно суммировать и вообще - использовать их как меру, а не как измерение?). Но как только дело доходит до построения куба, а затем его анализа с помощью аналогичной data mining-модели, получается полная ерунда (использую стандартные клиентские средства MS AS).

Куб я построил. Его анализ с помощью OLAP-клиента идет превосходно. Но вот построить нормальный decision trees-анализ не получается.

Во-первых , что считать case'ом? ИД транзакции не получается, т.к. запихнуть ее в измерения не выходит - записей очень много (больше 64000). Да вроде это и неправильно. Что тогда?

Во-вторых , как сделать так, чтобы предсказываемое значение было не атрибутом (member property) или уровнем (level) одного из измерений (dimension), а другим измерением (или даже мерой)? Сделать-то можно, вот только в этом случае он и деревьев строит столько, сколько значений у предсказываемого измерения найдет. И дальше получается какое-то бредовое и трудно понимаемое ветвление между exists и missing с совершенно невразумительным дроблением по входным измерениям.

Если кто подскажет, буду благодарен. Пример MS совершенно не проясняет ситуацию - его Customer Pattern Discovery, хоть и строится по кубу, но по сути является тем же Relational Data Mining Model, поскольку все входы и предсказываемые параметры являются атрибутами одного и того же измерения!

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

07.05.2004, 23:24

#32511310

Константин Лисянский

Участник

Откуда: Москва
Сообщения: 884
Рейтинг: 0 / 0

Проверка Data mining-модели на простом примере (MS AS)

Обычно для data mining используют плоские таблицы.
Использование кубов для этих целей мне кажется странным.
Может, надо создать вьюшку в виде простыни (соединить таблицу фактов с измерениями) и подсунуть её алгоритму дерева решений? Тогда и ограничения в 64000 не должно быть. И не надо будет маяться с мембер пропертями и атрибутами.
Вообще, странный какой-то подход у этого MS AS. Может, более специализированный продукт использовать? SPSS какой-нибудь, или Polyanalyst, может, BaseGroup. SAS на крайний случай если денег есть. Деревья решений - не такой сложный алгоритм и в каждом средстве data mining имеется и интерфейсы нормальные визуальные. В этом AS, небось, кроме деревьев больше нету алгоритмов никаких?

как MS AS догадался, что часы нужно суммировать и вообще - использовать их как меру, а не как измерение?

Обычно дереву решения надо сказать, какая переменная - зависимая (анализируемая), а какие - независимые. Ну, по крайней мере, в тех продуктах, которыми я пользовался.

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

08.05.2004, 10:00

#32511373

Максим Галимов

Гость

Проверка Data mining-модели на простом примере (MS AS)

Задача как раз и состоит в изучении Microsoft Analysis Services. Из сторонних продуктов я смотрел Deductor от BaseGroup (в демо-версии, правда, но тем не менее), там действительно идет обработка "плоских" данных. На таких данных, повторюсь, MS AS работает просто превосходно (они могут лежать в таблице или в одном измерении куба).

Но для чего тогда клиент MS AS предлагает анализировать куб, если толком он этого делать не умеет? Непонятно. Может быть, он просто считает его одним из возможных источников - так, на всякий случай, чтобы был?

В MS AS кроме деревьев решений есть еще алгоритмы кластеризации, а по утверждению В. Иванова, активно участвующего в обсуждениях на форуме, есть и какие-то другие, "скрытые" алгоритмы, которые ему удалось найти, пользуясь ADO-доступом к OLAP и DM MS Analysis Services.

Впрочем, и алгоритм кластеризации работает неважно на кубах. Или я чего-то не понимаю.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

10.05.2004, 06:37

#32511867

Владимир Иванов

Участник

Откуда: www.MicrosoftProject.ru
Сообщения: 810
Рейтинг: 0 / 0

Проверка Data mining-модели на простом примере (MS AS)

2Константин. Microsoft действует очень правильно. Ребята из MS строят модели из OLAP-кубов для того чтобы получить результат как виртуальные измерения и вернуть в куб. Это ОЧЕНЬ полезно. Одно дело наличие закономерности, другое дело покрутить факты по ее разрезам. Я называю часто такие измерения измерениями упущенных возможностей. Например, есть сильные факторы влиящие на прибыль ваших сделок, но вы вероятно не знаете о них и не используете их на всю катушку, поэтому итоговые обороты по этим факторам будут несопоставимо малы. Очень важный анализ.
Ставка в Юконе на расширение алгоритмов и их интеграцию обратно в OLAP-кубы очень правильная. Симбиоз DM и OLAP очень продуктивен.
К сожалению есть ложка дегтя. Очевидно, что алгоритмы работающие из OLAP-источников другие и более бедные как по результативности, так и по возможным настройкам. Надеюсь это временно.

Скрытые алгоритмы. Просто Microsoft вывел в дизайнер только поиск закономерностей, но не прогнозирование. Небольшой мастер по прогнозированию есть правда в DTS, но легче саму делать query.
Также MS не сделал возврата кластерной модели измерением в куб, но это можно сделать самому.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

11.05.2004, 09:12

#32512567

Максим Галимов

Гость

Проверка Data mining-модели на простом примере (MS AS)

Спасибо за ответы. Буду пробовать, проверять.

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

Период между сообщениями больше года.

28.03.2006, 17:05

#33630330

Pushinka

Гость

Проверка Data mining-модели на простом примере (MS AS)

так у кого-нибудь получилось построить дерево, используя куб?
помогите, пожалуйста

...

Рейтинг:

0 / 0

| Ответить | Цитировать | Написать

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/search_topic.php?author=Vinil&author_mode=last_posts&do_search=1]:	0ms
get settings:	10ms
get forum list:	15ms
get settings:	9ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	83ms
get topic data:	11ms
get forum data:	2ms
get page messages:	44ms
get tp. blocked users:	2ms
others:	726ms

total:	922ms