powered by simpleCommunicator - 2.0.30     © 2024 Programmizd 02
Map
Форумы / Java [игнор отключен] [закрыт для гостей] / Мониторинг изменений в базах данных
3 сообщений из 153, страница 7 из 7
Мониторинг изменений в базах данных
    #39921175
Leonid Kudryavtsev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton

А вот мне все веб-клиенты лень писать. Тоесть могу кошно ... но чёт ломает.

Первую версию парсера написать за вечер/выходные вполне можно. Готов за выходные перелопатить пару тысячь сообщений в формат БД (insert'ов)

mayton

У меня была идея - строить Марковские сети для каждого акка.

Я даже слов таких не знаю "Марковские сети" )))
...
Рейтинг: 0 / 0
Мониторинг изменений в базах данных
    #39921180
забыл ник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Делали подобную систему - если без нейронок, то алгоритм следующий -

1) Склеиваем все сообщения автора в одну строку
2) Фильтруем стоп слова - предлоги и общеупотребительные
3) делаем TF\IDF индекс для выбора сотни самых значимых и необычных слов автора
4) Переводим все в векторный формат(каждому слову будет соответствовать double)
5) ищем симиларити между двумя мемюерами посредством Word2Vec лиюо другого алгоритма.

Тут есть пара нюансов - текста должно быть много, от 1000 постов - иначе не хватит выборки.
У нас работало с точностью 60-70%, можно было конечно заморачиться еще суффиксами\n-граммами, знаками препинания, заглавная ли первая буква и т.д но нам хватало.
В этом форуме могут еще сработать такие признаки как смайлики, формат кода(если вообще вставляет), время когда человек пишет(обычные рабочие часы), тематика вопросов и т.д - думаю дажебез нейронки можно построить точную модель. а на нейронке - так там вообще выборка сумасшедшая нужна для точности
...
Рейтинг: 0 / 0
Мониторинг изменений в базах данных
    #39921213
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Давайте так. Я уже свою пятницу "застолбил".

Но вы - поднимайте тему лучше в Программинге. Там - аудитория шире. Я возможно подключусь.
...
Рейтинг: 0 / 0
3 сообщений из 153, страница 7 из 7
Форумы / Java [игнор отключен] [закрыт для гостей] / Мониторинг изменений в базах данных
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]