|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton Алексей Роза да к нему бесполезно, чел плотно подсел на телепатию. у тебя пример абстрактный, ну вот я абстрактно говорю, что всё есть, осталось только понять, что надо. и уже от этого плясать. Вот у меня конкретный лог. Были унылые сообщения. Я классифицировал их как центр кластера. Видите? Они почти одинаковы? Код: sql 1. 2. 3.
И все другие также попадают в известные кластеры. Внезапно (!) прилетает новое сообщение. И оно - не классифицируется. И mikron получает на почту алёрт с красным лопухом. "Shutting down ...." e.t.c. Код: sql 1.
Вот так я себе понимаю проблему топика. да, это если у тебя описан только ОДИН вариант, а всё остальное у тебя прилетают, как "ОГО, что-то новенькое" на самом деле там все варианты должны быть известны заранее и каждый соответственно обрабатываться (впихиваться в новую БД через свой регексп или ещё как) "Shutting down" - это тип события вполне себе. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 11:49 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Про shutting down - это была моя шутка юмора. В самом деле. Мне как и вам лень искать репрезентативные логи. А продуктовые - айайай. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 11:57 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Ржавый гвоздь Я валяюсь с этой темы Автору нужен "нетривиальный анализ", но он предлагает помогающим самим лазить по гитхабам в поисках тестовых данных для его задачи... Шта? Троллинг такой троллинг. И охота вам нянчиться с этим? :)) О какой помощи тут на форуме может идти речь? talk is cheap. Я так вижу: я предлагаю интересную тему, если кому интересно обсудить и пошевелить мозгами. Ну а если нет прохожий, проходи мимо, не мусори в топике своим ЧСВ. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 12:47 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton Про shutting down - это была моя шутка юмора. В самом деле. Мне как и вам лень искать репрезентативные логи. А продуктовые - айайай. а помнится мы на "ты" были али дистанцируешься? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 12:54 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Занятная трактовка смысла существования форума ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 12:55 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Алексей Роза mayton Про shutting down - это была моя шутка юмора. В самом деле. Мне как и вам лень искать репрезентативные логи. А продуктовые - айайай. а помнится мы на "ты" были али дистанцируешься? Ты читал "Сказку о Тройке" ? Там был такой персонаж. Хлебовводов. Так вот он разговаривал переключаясь то на "ты". То на "вы". ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 12:59 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton Несколько мыслей... 1. В данной задаче есть элемент обучения. 2. В данной задаче есть некое устойчивое состояние кластеров 3. Есть контрольная точка времени t. После которой мы пускаем систему в режим продолжения обнаружения кластеров ........... Не исключено что в процессе работы количество кластеров будет расти что само по себе плохо. Т.к. новые кластеры ухудшают избирательность системы и их надо будет чистить. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:09 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
В данном топике (как и во многих) не хватает самого главного. Внятных требований. Или даже не требований а юзкейса. Типа я как девопс системы X хочу получать на почту уведомления о новых и неопознанных сообщениях ошибок в логах. Образец таких сообщений - прилагается. Почему скажите мы, помогающие должны искать эти образцы. Автор должен сделать хоть чуточку усилий. А то получается что вроде как ему надо... но не сильно... Такое отношение и нас расхолаживает. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:13 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton Алексей Роза пропущено... а помнится мы на "ты" были али дистанцируешься? Ты читал "Сказку о Тройке" ? Там был такой персонаж. Хлебовводов. Так вот он разговаривал переключаясь то на "ты". То на "вы". не читал. он шизофреником был? ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:13 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Алексей Роза mayton пропущено... Ты читал "Сказку о Тройке" ? Там был такой персонаж. Хлебовводов. Так вот он разговаривал переключаясь то на "ты". То на "вы". не читал. он шизофреником был? Не знаю но со стороны это было блин... как будто давление оказывал А что касается меня... то я просто забыл к кому как обращался. Сказка о Тройке— Я бы попросил! — прервал его Хлебовводов. — Ты что это нам читаете? Ты это нам роман читаете? Или водевиль? Ты, браток, анкету нам зачитываете, а получается у тебя водевиль. Лавр Федотович взял бинокль и направил на коменданта. Комендант сник. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:15 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
ну так то по статусу модера положено на "вы"... и путаться не будеТЕ ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:17 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Да забей. Ничего не положено и не покладено. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:19 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron :)) О какой помощи тут на форуме может идти речь? Для автора. В последний раз бесплатно предлагаю вариант решения. На сферический вопрос можно дать такой же сферичности ответ. Надеюсь, начальная классификация сообщений имеется. Далее изменение и рост классов поисходит в автоматизированномрежиме (т.е. не на полном автомате). Надеюсь, что все сообщения, а не только представители, помечены признаком класса. И имеется доступк ним ко всем. Далее технология простая, если можно так сказать. Всё делается по подобию поисковиков, только без рекламы. И метрика похожая, "полнотекстовая". Каждое сообщение превращается в лексемы и рассматривается как предложение из лексем на естественном языке. Почему на естественном? возможны омонимы, синонимы, выпадения и перестановки порядка лексем. Т.е. немного контекстно-зависимая грамматика. Сделать поисковый запрос к этому массиву. Вываливается упорядоченный список "подходящих" представителей. Первый из них самый релевантный. Если что-то новое, то да, в базу новых классов, а потом на ручное усмотрение оператора. Здесь возможны варианты. Наверняка есть десктопные поисковые приложения. Это для обкатки и отладки решения. Если у автора остались вопросы, предлагаю услугу, 4-6К$ за разработку алгоритма. По сути за ТЗ кодеру, торг уместен. Ибо алгоритм универсальный, и он затребуется в бизнесе, а закодить желающих найти нетрудно. Автору успехов. "Не нравится - проходи мимо"(цэ) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:41 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton В данном топике (как и во многих) не хватает самого главного. Внятных требований. Или даже не требований а юзкейса. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:48 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton А то получается что вроде как ему надо... но не сильно... Такое отношение и нас расхолаживает. это как хобби. Будет больше времени посмотрю bugtracker JBOSS-a для примеров. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 13:59 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
exp98 mayton В данном топике (как и во многих) не хватает самого главного. Внятных требований. Или даже не требований а юзкейса. Да что же вам ещё не понятно? Процесс описал, вопросы чётко сформулировал, на конкретном примере с bagtracker usecase показал. О чем ещё плач? Задавайте конкретные вопросы. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 14:10 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Хобби .... и почему же я не верю? Наверное потому, что в игровой задачке исходные данные не скрывают. И про критичность по времени не заикаются. Здесь очевидный бизнес интерес. Пусть даже и личный. Но тогда и начинать надо со слова Помогите .... а не эксплуатировать добрые порывы. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 14:15 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron Да что же вам ещё не понятно? ... Давно было сказано. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 14:17 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Вот неплохой обзор по алгоритмам кластеризации. https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68 ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 15:05 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Остался пустяк - рассказать автору как подготовить данные. Это собственно самая сложная часть задачи. И оптимизации. Подозреваю что количество записей в логах меряется миллионами. И тут без этого не обойтись. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 15:12 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Это мой последний пост (номер красивый) Я наблюдаю у нас разный уровень, культура, менталитет. Дискуссий не получается, все скатывается к позёрству и глупым нападкам. Бессмысленная бесконечная война. Мне это не нужно и жаль времени. Всем успешных баталий. IMXO Форум в таком виде, когда нельзя фильтровать/собирать оппонентов, как социальная платформа уже не актуален. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 17:13 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Из реализаций вот тут есть http://commons.apache.org/proper/commons-math/apidocs/org/apache/commons/math4/ml/clustering/package-summary.html
... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 17:27 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Работает. Толкаем туда 1000 точек на плоскости с координатами (0,100) (100,0) плюс гауссовый шум с средним отклонением 30. Код: java 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.
При известном количестве средних он находит вот такое. 0.677541 101.093618 99.788184 2.010144 ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 17:50 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron Это мой последний пост (номер красивый) Я наблюдаю у нас разный уровень, культура, менталитет. Дискуссий не получается, все скатывается к позёрству и глупым нападкам. Бессмысленная бесконечная война. Мне это не нужно и жаль времени. Всем успешных баталий. IMXO Форум в таком виде, когда нельзя фильтровать/собирать оппонентов, как социальная платформа уже не актуален. почаще ходи по форумам со спрятанными наглухо данными и показом ЛЕВЫХ данных а потом ной погромче, что форум говно и ничем не помог ... |
|||
:
Нравится:
Не нравится:
|
|||
21.10.2020, 18:27 |
|
|
start [/forum/topic.php?fid=16&msg=40010650&tid=1339719]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
140ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
55ms |
get tp. blocked users: |
1ms |
others: | 237ms |
total: | 471ms |
0 / 0 |