Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
Некоторые коллеги, в том числе не безвестный г-н Шемякин, просили меня привести примеры практического применения Data Mining. Вот матриал. Для тех у кого аллергия на рекламу, советую не читать или прикрывать цены ладошкой. Тем более что материал в значительной степени рекламирует наших конкурентов – SAS. http://www.microsoftproject.ru/articles.phtml?aid=36 ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2004, 11:08 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
Или я не увидел или там не сказано, как высчитывать риски. Разложить в дерево известные риски ничего не стоит, к анализу рисков это мало отношения имеет. Среди клиентов SAS указаны в основном те, где никакой Data Mining не внедрялся. Data Mining не сводится к одному алгоритму. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2004, 11:56 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
материал в значительной степени рекламирует наших конкурентов – SAS. Гы :) Не знаю, акционировались ли они, но SAS до недавнего времени был крупнейшей частной софтверной компанией. Владимир, Вы себя хорошо спозиционировали :)) внутри работает фантастически сложная аналитическая система, которая ищет корреляции, т.е. закономерности в данных и по ним конструирует реальную картину принятия решений и воздействий Деревья решений считаются одним из простых алгоритмов, насколько мне известно. Ну, и потом, мне кажется, Вы спутали дерево решений с деревом вероятностей. То, что в PMBoK оно называется Decision Tree не делает его деревом решений из data mining. Ну, и потом, даже если это и data mining, то сколько ему надо дать данных (однотипных, прошу заметить) о проектах, в которых стандартные риски осуществились и неосуществились, чтобы иметь возможность прогнозировать вероятность осуществления того или иного риска в новом проекте? Ведь, так или иначе, при построении деревьев решений используется аппарат статистики, которая, как извествно, не любит выборок маленьких размеров. В общем, не очень понятно, кому и для чего это нужно. Желаю побольше импульсивных клиентов с толстыми кошельками :)) С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2004, 12:11 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
2Birkhoff Из этого высказывания "Разложить в дерево известные риски ничего не стоит" коллега, я могу сделать только вывод, что вы ни разу ни пытались внедрить средства DM, даже на уровне пилота. Decision Tree только кажется элементарным, а на практике превращается в сложный во внедрении комплекс. Я с интересом посмотрю как вы "легко" разложите в дерево риск лист, где 50-200 атрибутов и где часть атрибутов дробная величина. О необходимости критеризации и ее постановочной сложности вероятно помолчим. Кластер конечно было не разглядеть? 2Константин Лисянский Коллега, позвольте мне тоже отметить, что DM внедрить вы не пытались иначе фраза "В общем, не очень понятно, кому и для чего это нужно" звучит странно. У DM довольно четкая ниша. Ранее у нас работал Андрей Малов (сейчас в ушел в Ford), инженер с кандидатской степенью по исследованию данных. К этой работе он тоже приложил руки, так что ваша критика мне кажется просто неинтересной, т.к. действительно скользкие места вы даже не отметили и не заметили. Потом Константин, после "не любит выборок маленьких размеров" мне не очень интересно это даже все обсуждать. Иногда стоит от книжек отрываться к практике. Выборка не должна быть меньше чем требует хи-квадрат, т.е. приличная статистика может уже быть с 30 фактов. Вопрос что в выборке. А алгоритмы DM далеко не просты, а главное стандартны. К слову любителей экзотики в DM ждет печальная участь. Вчера был свидетелем как ученый совет завалил молодого человека, который решил изобрести свой метод кластеризации. А SAS действительно пришлось столкнуться. Правда клиент решил, что MS это самая крупная софтверная компания и на этом тендер кончился. Что SAS заявляет, то и пишу. PS. Единственно что интересно. В Oracle есть модуль DM, вроде называется Darvin. По описанию мне очень понравился. В целом аналогичен MS, т.е. дерево и кластер, но вроде сервиса больше. Интересно кто пробовал его в деле? PSS. Интересно пробовал ли кто еще DM на практике? PSS. Отмечу, внедрение кластерных моделей иногда позволяет убежать от distinct count кубов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2004, 13:54 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
Podderzhivayu Lisyanskogo. Kak primer Data Minig - riski proektov, daleko ne samii luchshii priimer. Data Mining baziruetsya na stistike - malo dannih - zanchit rezultat budet "visosan iz palca". Ili vi zabili chemu vas uchili po uchebnikam Kolmogorova i Ventcel. A gde vi realno dannih po proektam naberete chtob v nih zakopatsya. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2004, 13:56 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
Тоже поддержим Лисянского. :) На самом деле Лисянский у меня плотно ассоциируется с Микростратегией, как и Бикхоф с Oracle. Если был резок sorry, тем более у меня странное дежавю. Мне кажется Биркоф это МТС или Талгар. Как странно гундосить с партнерами и клиентами. Это о вреде ников. :) backfire ты конечно прав в том, что корреляция падает при уменьшении выборки. Но это поверхностный взгляд без учета практики и теории. Дерево быстро жрет корреляцию расходясь ветвями, поэтому главное это уже критеризация, которая на 100% зависит от аналитика. Весь DM построен на "тренировке" моделей, поэтому по определению не может работать с такими выборками как OLAP. Выборка в 5000-20000 уже ульта презентативна и теории не может иметь отклонений более чем на 1% от генеральной последовательности. Слышали о primaries? Это оно и есть. Вопрос опять же как выбрать из всего DWH это кусочек. Опять это к аналитику. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2004, 15:05 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
2Владимир: Сорри, ежели задел. Наездов даже в мыслях не было (смайлики специально расставлял). Удачи! С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2004, 22:14 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
TO Ivanov ::)) Зная некоторых представителей datamining у мекня сложилось впечатление - что для них первое mining a OLAP это дело второе. ВСе это к тому , что очень трудно быть специалистом и OLAP и dm/ Поэтому все сказанное выше чимтал прикрывши рот ладошкой. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2004, 23:02 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
2 Владимир Иванов Напрасно вы считаете, что у меня нет опыта с DM. Я говорю про ваш пример из темы PM и конкретно из вашей статьи. Я не вижу связи между условием задачи и решением. Правда с точки зрения PM, я больше знаком с методологией IPMA, а не PMI. MS AS конечно супер DM средство, но я обычно исхожу из задач, а не от средств. Наверное вы привели плохой пример, раз он вызвал столько нареканий у меня и у других участников. В любом случае если вам "не очень интересно это даже все обсуждать" - воля ваша. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.02.2004, 02:48 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
К слову любителей экзотики в DM ждет печальная участь. Вчера был свидетелем как ученый совет завалил молодого человека, который решил изобрести свой метод кластеризации. Вспоминаются Джордано Бруно и Галилео Галилей Правда клиент решил, что MS это самая крупная софтверная компания и на этом тендер кончился. Мне жаль клиента, если он принимает решения только на основании растопыренности пальцев, без учета специфики. Мне кажется Биркоф это МТС или Талгар. Какое это имеет значение в форуме? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.02.2004, 02:56 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
>> Вчера был свидетелем как ученый совет завалил молодого человека, >>который решил изобрести свой метод кластеризации. Эх зря. Этих методом кластеризации и так как собак нерезанных и еще один бы никому не помешал. Видно дело было в другом. Кстати если не секрет где проходила защита? Хотя бы город. А приведенный пример действительно достаточно слабенький. Представьте себе аналитика который получил данные что риски компании происходят изза ошибок проектирования Сидорова. Такие данные ни о чем не говорят и их просто выбросят в мусорную корзину. (собст. опыт) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.02.2004, 06:36 |
|
||
|
Практическое использование Data Mining для упр. рисками
|
|||
|---|---|---|---|
|
#18+
Мне жаль, что обсуждение закончилось так. Приведу не аргументы, а полезные замечания для тех кто решился заняться DM и c вашего разрешения покину форум, развлечение развлечением, но пора и работать. 1) Выборки для DM достаточны очень малые для достоверных предсказаний. Подумайте сами, многие эксперименты в науке можно сделать всего несколько раз, это не значит, что нельзя из них вытащить достоверную зависимость. Приведу пример проверки решения DM (один узел расщепления), который провел профессиональный математик. 53 факта. "Был применена новая методика" – Цель достигнута (21 факт), Цель не достигнута (2 факта) "Новая методика не применялась" - Цель достигнута (8 фактов), Цель не достигнута (22 факта) Коэф. Корреляции = Ф = (A*D-B*C)/SQR((A+B)*(C+D)*(A+C)*(B+D)) Ф=0.64 ХиКвадрат=Ф^2*Nфактов=0.64*0.64*52=22,11 ХиКвадрат>6.6, следовательно p<1% (см. таблицу проверки гипотез ХиКвадрат) Иными словами, вероятность того что на 53 факта было верно сделано расщепление в листы достоверно с вероятностью 99%. ХиКвадрат это стандартный метод в научной статистике, вы сможете получить ученую степень используя его в стат. проверке своих гипотез. Я привел пример из своей практики, но из формул видно, что при не очень сильной корреляции Ф=0,64 для достоверности гипотезы в 99% будет достаточно даже 18 фактов. Теперь понятно почему MS AS накладывает на лист требование "всего 10 фактов"? Так что Константин я без эмоций вам показываю, что объем выборок не играет решающей роли. Играет роль правильный их выбор, обратите на это внимание. 2) Господа, идите на идентификацию гипотез с малой достоверностью (тенденций). Полная достоверность далеко не всегда цель, часто важнее быстро обнаруживать тенденции, которые пока еще не имеют много статистики. Пример из 2х фактов. Факт 1. Петров в условиях X вляпался в риск и мы получили убыток $3000. Факт 2. Петров в условиях X снова вляпался в риск и мы получили убыток $4000. С точки зрения ХиКвадрат вероятность что гипотеза "Петров+X=риск" достоверна примерно 65%, что с научной точки зрения недостаточно, однако с точки зрения менеджера ситуация выглядит иначе. Скорее все будет разумным подумать не попробовать ли Сидорова, когда снова появятся условия X. Вот почему я снижаю обычно требования DM к границам выявления. Лучше менеджера научить по гистограммам оценивать правдоподобность гипотезы, нежели чем потерять тенденцию. PS. Жаль, что Бикхов не поделился опытом использования Darvin'a. Всем до новых встреч. :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.02.2004, 09:24 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=32416240&tid=1872837]: |
0ms |
get settings: |
15ms |
get forum list: |
17ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
57ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
69ms |
get tp. blocked users: |
2ms |
| others: | 293ms |
| total: | 473ms |

| 0 / 0 |
