|
|
|
э-э-э- ... кластеризация "на формулах"
|
|||
|---|---|---|---|
|
#18+
Думал, куда поместить)) В общем, недавно мне понадобилось срочно выполнить небольшой кластерный анализ. Не было ничего удобного, за полчаса в инете не нашёл быстро чего нить лёгкого. Так появился этот файл. Надеюсь окажется полезным не только для кластеризации, но и как возможность попрограммировать, файл не для лентяев)) Сделано полностью на формулах. Ограничения. Диапазон надо править в формулах - сейчас он на 100 строк. Колич-во итераций ограничено кол-вом столбцов в екселе - сколько предполагается, итераций, столько копий надо предварительно наплодить. Начальные центры кластеров надо сперва задать. Автоматизация выбора начальных кластеров - довольно трудоёмка, а этот файл отладил за пол дня Рассматривается одномерное множество, но переделать на несколько координат - не проблема. Из программных улучшений - вместо дублирования столбцов разрешить циклические ссылки. Сами решайте, брать/не брать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.07.2010, 15:30 |
|
||
|
э-э-э- ... кластеризация "на формулах"
|
|||
|---|---|---|---|
|
#18+
exp98, Интерсно, осталось только в кластерном аналезе разобраться ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.07.2010, 15:42 |
|
||
|
э-э-э- ... кластеризация "на формулах"
|
|||
|---|---|---|---|
|
#18+
-O_o-, здесь реализован простейший вариант, а разбираться надо тому, кто хочет что-то подобное сделать. Мало-мальски сложный варинат прид1тся рисовать в макросах. Кому нужно попользоваться, разбираться в анализе необязательно. И ещё конечно недостаток, что если данных много - миллион - то ексел на формулах ведь не потянет? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.07.2010, 16:32 |
|
||
|
э-э-э- ... кластеризация "на формулах"
|
|||
|---|---|---|---|
|
#18+
Что это и с чем его едят - не знаю и мне, наверное, не нужно. Маленькая капля дегтя. В столбце Е ссылка на диапазон до сотой строки, а в С9 формула, отличающаяся от верхних ( =$B$2 ). Т.е. в зависимости от количества значений столбца D нужно протягивать формулы? Где же здесь автоматизация? Если так (в C5 ): =ЕСЛИ(D4="";"";ЕСЛИ(D5="";$B$2;СРЗНАЧ(D4:D5))) ? В формулы ВПР тоже желательно добавить проверку на #Н/Д для протягивания вниз. Но это мои догадки. Может, ткак есть, так и надо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.07.2010, 16:42 |
|
||
|
э-э-э- ... кластеризация "на формулах"
|
|||
|---|---|---|---|
|
#18+
exp98-O_o-, здесь реализован простейший вариант, а разбираться надо тому, кто хочет что-то подобное сделать. Мало-мальски сложный варинат прид1тся рисовать в макросах. Кому нужно попользоваться, разбираться в анализе необязательно. И ещё конечно недостаток, что если данных много - миллион - то ексел на формулах ведь не потянет? Конечно не потянет ))) не хватит строк как минимум в 2003 ) А так потянет конечно ))) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.07.2010, 16:44 |
|
||
|
э-э-э- ... кластеризация "на формулах"
|
|||
|---|---|---|---|
|
#18+
vikttur, даже не капля дёгтя, а молекула )) Большая бочка дёгтя - это то, что для использования начальные центры кластеров придётся задавать ручками в столбце "Е". Альтернативой будет, если задать случайные значения на отрезке от В1 до В2. Другая бочка дёгтя - это что количество кластеров надо угадать либо последовательно запускать для 2-х, 3-х, 4-х и т.д. кластеров, а потом выбрать лучший вариант исходя из экспертного мнения. Насчёт твоих предложений - всё верно, не хотел возиться, надо было поскорее сделать. Для ВПР() проверку? Я думаю, что если ошибок нет, то проверка не нужна, в какой-нибудь диапазон число всегда должно попасть. Ещё бочка - сортировка необходима в столбцах Д1, Д2 ..., чтоб ВПР() корректно работала. Увы(( Если начальные центры в столбце Е1 выбраны неудачно или случайно, то сортировка по возрастанию необходима. Большущая бочка - постоянное кол-во кластеров. Не всегда заранее известно сколько их. Желательно в ходе алгоритма, чтоб это число менялось. Регулируется просто - например задать минимальное / максим-ое расстояние между центрами кластеров. Существуют и другие способы. Вряд ли на формулах легко удастся (( В итоге, я думаю, что обкатав на формулах, несложно будет это перевести на макросы, просто в формулах легче отлаживаться. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.07.2010, 14:19 |
|
||
|
э-э-э- ... кластеризация "на формулах"
|
|||
|---|---|---|---|
|
#18+
exp98 Другая бочка дёгтя - это что количество кластеров надо угадать либо последовательно запускать для 2-х, 3-х, 4-х и т.д. кластеров, а потом выбрать лучший вариант исходя из экспертного мнения. Если начальные центры в столбце Е1 выбраны неудачно или случайно, то сортировка по возрастанию необходима. Желательно в ходе алгоритма, чтоб это число менялось. как-то это на подгонку модели к данным смахивает. overfitting. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.07.2010, 16:00 |
|
||
|
э-э-э- ... кластеризация "на формулах"
|
|||
|---|---|---|---|
|
#18+
fortik как-то это на подгонку модели к данным смахивает. overfitting. смахивает, но не есть подгонка ) Модель не догма, а инструмент. Сам по себе выбор модели - ба-а-льшой волюнтаризм. Если есть возможность посмотреть результат, его следует посмотреть и критически оценить. При необходимости сменить модель - такова жизнь. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.07.2010, 14:45 |
|
||
|
|

start [/forum/topic.php?fid=61&msg=36743462&tid=2177863]: |
0ms |
get settings: |
11ms |
get forum list: |
18ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
252ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
45ms |
get tp. blocked users: |
1ms |
| others: | 248ms |
| total: | 594ms |

| 0 / 0 |
