Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Посоветуйте алгоритм кластеризации / 5 сообщений из 5, страница 1 из 1
07.08.2014, 13:39
    #38714873
INOKENTiY
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Посоветуйте алгоритм кластеризации
Есть 100тыс. вопросов. И хочу понять о чем задают вопросы наиболее часто. Думаю для начала мне нужно выделить кластеры. Посоветуйте в каком направлении копать. Может есть библиотеки специальные на Python, PHP или JavaScript.
...
Рейтинг: 0 / 0
07.08.2014, 13:51
    #38714898
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Посоветуйте алгоритм кластеризации
Чтобы применять кластеризацию, нужно сначала ввести какие-то метрики к этим вопросам. Они у вас уже есть?

Я бы предложил не мудрить и сделать частотный анализ отдельных слов, пар слов и, возможно, троек слов. Слова хорошо бы привести к нормальной форме. Возможно, отдельно выделить глаголы/существительные. Т.е. в моем видении анализ должен быть более лингвистический, нежели кластерный.
...
Рейтинг: 0 / 0
08.08.2014, 18:53
    #38716335
INOKENTiY
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Посоветуйте алгоритм кластеризации
miksoft,

если метриками считать количество ответов на вопрос, то есть популярность
...
Рейтинг: 0 / 0
08.08.2014, 18:56
    #38716337
miksoft
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Посоветуйте алгоритм кластеризации
INOKENTiYmiksoft,

если метриками считать количество ответов на вопрос, то есть популярностьТогда просто отсортируйте по количеству ответов. Постройте распределение, по нему определитесь как резать на группы и режьте.
...
Рейтинг: 0 / 0
09.08.2014, 10:53
    #38716478
mayton
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Посоветуйте алгоритм кластеризации
INOKENTiYЕсть 100тыс. вопросов. И хочу понять о чем задают вопросы наиболее часто. Думаю для начала мне нужно выделить кластеры. Посоветуйте в каком направлении копать. Может есть библиотеки специальные на Python, PHP или JavaScript.
Найти библиотеку стемминга. Прогнать все вопросы через стеммер. Остануться отфильтрованные слова без падежей e.t.c.
Далее найти справочник существительных. Прогнать остаток через него. Остануться keywords. Далее сложнее.
Алгоритмов кластеризации много. Надо эксперименентально подобрать то что практически подходит.
...
Рейтинг: 0 / 0
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Посоветуйте алгоритм кластеризации / 5 сообщений из 5, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]