|
|
|
Посоветуйте алгоритм кластеризации
|
|||
|---|---|---|---|
|
#18+
Есть 100тыс. вопросов. И хочу понять о чем задают вопросы наиболее часто. Думаю для начала мне нужно выделить кластеры. Посоветуйте в каком направлении копать. Может есть библиотеки специальные на Python, PHP или JavaScript. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.08.2014, 13:39 |
|
||
|
Посоветуйте алгоритм кластеризации
|
|||
|---|---|---|---|
|
#18+
Чтобы применять кластеризацию, нужно сначала ввести какие-то метрики к этим вопросам. Они у вас уже есть? Я бы предложил не мудрить и сделать частотный анализ отдельных слов, пар слов и, возможно, троек слов. Слова хорошо бы привести к нормальной форме. Возможно, отдельно выделить глаголы/существительные. Т.е. в моем видении анализ должен быть более лингвистический, нежели кластерный. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 07.08.2014, 13:51 |
|
||
|
Посоветуйте алгоритм кластеризации
|
|||
|---|---|---|---|
|
#18+
miksoft, если метриками считать количество ответов на вопрос, то есть популярность ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2014, 18:53 |
|
||
|
Посоветуйте алгоритм кластеризации
|
|||
|---|---|---|---|
|
#18+
INOKENTiYmiksoft, если метриками считать количество ответов на вопрос, то есть популярностьТогда просто отсортируйте по количеству ответов. Постройте распределение, по нему определитесь как резать на группы и режьте. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 08.08.2014, 18:56 |
|
||
|
Посоветуйте алгоритм кластеризации
|
|||
|---|---|---|---|
|
#18+
INOKENTiYЕсть 100тыс. вопросов. И хочу понять о чем задают вопросы наиболее часто. Думаю для начала мне нужно выделить кластеры. Посоветуйте в каком направлении копать. Может есть библиотеки специальные на Python, PHP или JavaScript. Найти библиотеку стемминга. Прогнать все вопросы через стеммер. Остануться отфильтрованные слова без падежей e.t.c. Далее найти справочник существительных. Прогнать остаток через него. Остануться keywords. Далее сложнее. Алгоритмов кластеризации много. Надо эксперименентально подобрать то что практически подходит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 09.08.2014, 10:53 |
|
||
|
|

start [/forum/topic.php?fid=16&msg=38714873&tid=1341264]: |
0ms |
get settings: |
11ms |
get forum list: |
21ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
173ms |
get topic data: |
9ms |
get forum data: |
2ms |
get page messages: |
44ms |
get tp. blocked users: |
1ms |
| others: | 213ms |
| total: | 482ms |

| 0 / 0 |
