|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton Из реализаций вот тут есть KMeansPlusPlusClusterer - метод К-средних Попутно по поводу сборника логов в разных форматах: сами понимаете, вот есть Война и мир, она мультиязычна. Ну и как без словаря убедиться, что там текст не эротического содержания. По ТСу, наверное, путём статистики текста)). ТС так желал. А мы его не так понимали. Закономерный итог. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 18:50 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
exp98 mayton Из реализаций вот тут есть KMeansPlusPlusClusterer - метод К-средних Попутно по поводу сборника логов в разных форматах: сами понимаете, вот есть Война и мир, она мультиязычна. Ну и как без словаря убедиться, что там текст не эротического содержания. По ТСу, наверное, путём статистики текста)). ТС так желал. А мы его не так понимали. Закономерный итог. Я хотел развить свою идею расстояния Хемминга и сыграть на этом в плане скорости. Но для процесса кластеризации центры кластеров все равно будут вещественными. Даже если исходные векторы я сведу к бинарным значениям {1.0, 0.0} Жаль конешно что автор слился. Видимо не очень горело. Но я отдельно подниму в Java парсер логов. Для своих нужд. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 18:53 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
exp98 Попутно по поводу сборника логов в разных форматах: сами понимаете, вот есть Война и мир, она мультиязычна. Ну и как без словаря убедиться, что там текст не эротического содержания. По ТСу, наверное, путём статистики текста)). ТС так желал. А мы его не так понимали. Закономерный итог. Идея ТС-а не продумана делатльно как раз в юзкейсе. В этой задаче в принципе из коробки ничего работать не будет. Если даже допустить что мы убираем явно число кластеров (мы его не знаем) то для алгоритма все равно нужен криетрий останова. Для нового центра кластеров (новая ошибка) все равно нужен некий эпсилон который будет характеризовать новую ошибку. Вот жаль что автор этого не понимает. Он рассуждает так - вот дайте мне "лялю" а я уж посмотрю. Не выйдет так. Даже такой энтузиаст как я устанет на второй странице. Сил нет продумывать за кастомера все. А уже за мемберов скруля я вообще молчу. Еще чего не хватало. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 18:57 |
|
|
start [/forum/topic.php?fid=16&msg=40010660&tid=1339719]: |
0ms |
get settings: |
11ms |
get forum list: |
11ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
160ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
49ms |
get tp. blocked users: |
2ms |
others: | 245ms |
total: | 500ms |
0 / 0 |