|
Мониторинг изменений в базах данных
|
|||
---|---|---|---|
#18+
mayton А вот мне все веб-клиенты лень писать. Тоесть могу кошно ... но чёт ломает. Первую версию парсера написать за вечер/выходные вполне можно. Готов за выходные перелопатить пару тысячь сообщений в формат БД (insert'ов) mayton У меня была идея - строить Марковские сети для каждого акка. Я даже слов таких не знаю "Марковские сети" ))) ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2020, 20:42 |
|
Мониторинг изменений в базах данных
|
|||
---|---|---|---|
#18+
Делали подобную систему - если без нейронок, то алгоритм следующий - 1) Склеиваем все сообщения автора в одну строку 2) Фильтруем стоп слова - предлоги и общеупотребительные 3) делаем TF\IDF индекс для выбора сотни самых значимых и необычных слов автора 4) Переводим все в векторный формат(каждому слову будет соответствовать double) 5) ищем симиларити между двумя мемюерами посредством Word2Vec лиюо другого алгоритма. Тут есть пара нюансов - текста должно быть много, от 1000 постов - иначе не хватит выборки. У нас работало с точностью 60-70%, можно было конечно заморачиться еще суффиксами\n-граммами, знаками препинания, заглавная ли первая буква и т.д но нам хватало. В этом форуме могут еще сработать такие признаки как смайлики, формат кода(если вообще вставляет), время когда человек пишет(обычные рабочие часы), тематика вопросов и т.д - думаю дажебез нейронки можно построить точную модель. а на нейронке - так там вообще выборка сумасшедшая нужна для точности ... |
|||
:
Нравится:
Не нравится:
|
|||
31.01.2020, 20:52 |
|
|
start [/forum/topic.php?fid=59&gotonew=1&tid=2120918]: |
0ms |
get settings: |
16ms |
get forum list: |
6ms |
check forum access: |
1ms |
check topic access: |
1ms |
track hit: |
40ms |
get topic data: |
3ms |
get first new msg: |
72ms |
get forum data: |
1ms |
get page messages: |
93ms |
get tp. blocked users: |
1ms |
others: | 324ms |
total: | 558ms |
0 / 0 |