Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности

Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
|
07.05.2004, 18:15
|
|||
|---|---|---|---|
|
|||
Проверка Data mining-модели на простом примере (MS AS) |
|||
|
#18+
Надеюсь, задаю вопрос, волнующий многих, начинающих знакомиться с Microsoft Analysis Services. Есть таблица фактов примерно - и упрощенно - следующего содержания: Дата День недели Подразделение Работник Вид затрат Проект План Отработанные часы ИД операции Пытаюсь понять, как работает data mining-модель decisions trees. Хочу, например, выяснить, каким образом зависит день недели от вида затрат и подразделения. (Вопрос, который я задаю, в отношении data mining-подхода должен звучать, наверное, так: "Что и каким образом определяет загруженность персонала в тот или иной день недели"). Если я строю Relational Data Mining Model, то получается очень даже неплохо: я День недели делаю predictable (предсказываемым) параметром, в качестве входов подаю Отработанные часы , Подразделение и Вид затрат , а в качестве идентификатора события (случая, транзакции, операции - короче, case), беру ИД операции . После обсчета получаю набор вполне внятных условий: Код: plaintext 1. 2. 3. 4. 5. Причем получаю заметно разное распределение весов разных дней недели для разных вариантов (например, АХЧ работает равномерно практически все дни - сторожа работают все время, в то время как "Не отдел внедрения" работает четко только с понедельника по пятницу, т.к. не имеет авралов). В-общем, красота (за исключением, пожалуй одного момента - как MS AS догадался, что часы нужно суммировать и вообще - использовать их как меру, а не как измерение?). Но как только дело доходит до построения куба, а затем его анализа с помощью аналогичной data mining-модели, получается полная ерунда (использую стандартные клиентские средства MS AS). Куб я построил. Его анализ с помощью OLAP-клиента идет превосходно. Но вот построить нормальный decision trees-анализ не получается. Во-первых , что считать case'ом? ИД транзакции не получается, т.к. запихнуть ее в измерения не выходит - записей очень много (больше 64000). Да вроде это и неправильно. Что тогда? Во-вторых , как сделать так, чтобы предсказываемое значение было не атрибутом (member property) или уровнем (level) одного из измерений (dimension), а другим измерением (или даже мерой)? Сделать-то можно, вот только в этом случае он и деревьев строит столько, сколько значений у предсказываемого измерения найдет. И дальше получается какое-то бредовое и трудно понимаемое ветвление между exists и missing с совершенно невразумительным дроблением по входным измерениям. Если кто подскажет, буду благодарен. Пример MS совершенно не проясняет ситуацию - его Customer Pattern Discovery, хоть и строится по кубу, но по сути является тем же Relational Data Mining Model, поскольку все входы и предсказываемые параметры являются атрибутами одного и того же измерения! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
07.05.2004, 23:24
|
|||
|---|---|---|---|
|
|||
Проверка Data mining-модели на простом примере (MS AS) |
|||
|
#18+
Обычно для data mining используют плоские таблицы. Использование кубов для этих целей мне кажется странным. Может, надо создать вьюшку в виде простыни (соединить таблицу фактов с измерениями) и подсунуть её алгоритму дерева решений? Тогда и ограничения в 64000 не должно быть. И не надо будет маяться с мембер пропертями и атрибутами. Вообще, странный какой-то подход у этого MS AS. Может, более специализированный продукт использовать? SPSS какой-нибудь, или Polyanalyst, может, BaseGroup. SAS на крайний случай если денег есть. Деревья решений - не такой сложный алгоритм и в каждом средстве data mining имеется и интерфейсы нормальные визуальные. В этом AS, небось, кроме деревьев больше нету алгоритмов никаких? как MS AS догадался, что часы нужно суммировать и вообще - использовать их как меру, а не как измерение? Обычно дереву решения надо сказать, какая переменная - зависимая (анализируемая), а какие - независимые. Ну, по крайней мере, в тех продуктах, которыми я пользовался. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
08.05.2004, 10:00
|
|||
|---|---|---|---|
|
|||
Проверка Data mining-модели на простом примере (MS AS) |
|||
|
#18+
Задача как раз и состоит в изучении Microsoft Analysis Services. Из сторонних продуктов я смотрел Deductor от BaseGroup (в демо-версии, правда, но тем не менее), там действительно идет обработка "плоских" данных. На таких данных, повторюсь, MS AS работает просто превосходно (они могут лежать в таблице или в одном измерении куба). Но для чего тогда клиент MS AS предлагает анализировать куб, если толком он этого делать не умеет? Непонятно. Может быть, он просто считает его одним из возможных источников - так, на всякий случай, чтобы был? В MS AS кроме деревьев решений есть еще алгоритмы кластеризации, а по утверждению В. Иванова, активно участвующего в обсуждениях на форуме, есть и какие-то другие, "скрытые" алгоритмы, которые ему удалось найти, пользуясь ADO-доступом к OLAP и DM MS Analysis Services. Впрочем, и алгоритм кластеризации работает неважно на кубах. Или я чего-то не понимаю. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
10.05.2004, 06:37
|
|||
|---|---|---|---|
|
|||
Проверка Data mining-модели на простом примере (MS AS) |
|||
|
#18+
2Константин. Microsoft действует очень правильно. Ребята из MS строят модели из OLAP-кубов для того чтобы получить результат как виртуальные измерения и вернуть в куб. Это ОЧЕНЬ полезно. Одно дело наличие закономерности, другое дело покрутить факты по ее разрезам. Я называю часто такие измерения измерениями упущенных возможностей. Например, есть сильные факторы влиящие на прибыль ваших сделок, но вы вероятно не знаете о них и не используете их на всю катушку, поэтому итоговые обороты по этим факторам будут несопоставимо малы. Очень важный анализ. Ставка в Юконе на расширение алгоритмов и их интеграцию обратно в OLAP-кубы очень правильная. Симбиоз DM и OLAP очень продуктивен. К сожалению есть ложка дегтя. Очевидно, что алгоритмы работающие из OLAP-источников другие и более бедные как по результативности, так и по возможным настройкам. Надеюсь это временно. Скрытые алгоритмы. Просто Microsoft вывел в дизайнер только поиск закономерностей, но не прогнозирование. Небольшой мастер по прогнозированию есть правда в DTS, но легче саму делать query. Также MS не сделал возврата кластерной модели измерением в куб, но это можно сделать самому. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|
11.05.2004, 09:12
|
|||
|---|---|---|---|
|
|||
Проверка Data mining-модели на простом примере (MS AS) |
|||
|
#18+
Спасибо за ответы. Буду пробовать, проверять. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
|
|
|

start [/forum/search_topic.php?author=Vinil&author_mode=last_posts&do_search=1]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
get settings: |
9ms |
get forum list: |
14ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
83ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
44ms |
get tp. blocked users: |
2ms |
| others: | 726ms |
| total: | 922ms |

| 0 / 0 |
