powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нетривиальная задача анализа текстовых сообщений
3 сообщений из 103, страница 5 из 5
Нетривиальная задача анализа текстовых сообщений
    #40010660
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Из реализаций вот тут есть
KMeansPlusPlusClusterer - метод К-средних
Да бесполезно, мэйтон, не в коня корм. Для типовых кластеризаций нужна хотя бы 1 ось координат. Что-то не заметно было у ТС шагов в эту сторону. А без координат прямая дорога к Кохонену и строкам лексем. Все предложения и вопросы как селёдкой по дубу. Ну почти. Я не жалею.

Попутно по поводу сборника логов в разных форматах: сами понимаете, вот есть Война и мир, она мультиязычна. Ну и как без словаря убедиться, что там текст не эротического содержания. По ТСу, наверное, путём статистики текста)). ТС так желал. А мы его не так понимали. Закономерный итог.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010662
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
mayton
Из реализаций вот тут есть
KMeansPlusPlusClusterer - метод К-средних
Да бесполезно, мэйтон, не в коня корм. Для типовых кластеризаций нужна хотя бы 1 ось координат. Что-то не заметно было у ТС шагов в эту сторону. А без координат прямая дорога к Кохонену и строкам лексем. Все предложения и вопросы как селёдкой по дубу. Ну почти. Я не жалею.

Попутно по поводу сборника логов в разных форматах: сами понимаете, вот есть Война и мир, она мультиязычна. Ну и как без словаря убедиться, что там текст не эротического содержания. По ТСу, наверное, путём статистики текста)). ТС так желал. А мы его не так понимали. Закономерный итог.

Я хотел развить свою идею расстояния Хемминга и сыграть на этом в плане скорости.
Но для процесса кластеризации центры кластеров все равно будут вещественными. Даже
если исходные векторы я сведу к бинарным значениям {1.0, 0.0}

Жаль конешно что автор слился. Видимо не очень горело. Но я отдельно подниму в Java
парсер логов. Для своих нужд.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010665
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98

Попутно по поводу сборника логов в разных форматах: сами понимаете, вот есть Война и мир, она мультиязычна. Ну и как без словаря убедиться, что там текст не эротического содержания. По ТСу, наверное, путём статистики текста)). ТС так желал. А мы его не так понимали. Закономерный итог.

Идея ТС-а не продумана делатльно как раз в юзкейсе. В этой задаче в принципе из коробки ничего
работать не будет. Если даже допустить что мы убираем явно число кластеров (мы его не знаем)
то для алгоритма все равно нужен криетрий останова.

Для нового центра кластеров (новая ошибка) все равно нужен некий эпсилон который будет
характеризовать новую ошибку.

Вот жаль что автор этого не понимает. Он рассуждает так - вот дайте мне "лялю" а я уж посмотрю.

Не выйдет так. Даже такой энтузиаст как я устанет на второй странице. Сил нет продумывать
за кастомера все. А уже за мемберов скруля я вообще молчу. Еще чего не хватало.
...
Рейтинг: 0 / 0
3 сообщений из 103, страница 5 из 5
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нетривиальная задача анализа текстовых сообщений
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]