|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
я полагаю потому, что у него там тот ещё бардак и месиво ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 14:13 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov mikron Я тоже не могу просматривать все сообщения и определять что в каждом из них значимо. А почему, собственно? Прочитал сообщение, увидел, что оно незначимо - пошёл и убрал его вывод из модуля, чтобы в логе оно больше никогда не появлялось. Обычная работа программиста. Скорее всего там - анализ того что случилось post-mortem. Тоесть убрать сообщние на будущее - это какой-то change-request но он не помогает решать текущий дефект. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 14:19 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron Мои вопросы возможно не всем доступны но вполне конкретны - как бы вы определяли схожесть сообщений? Какой ваш ответ? Я уже ответил на него в первом моем комментарии в этой теме. Ничего более конкретного сказать не могу, потому что вы не хотите давать дополнительных данных о вашей задаче. И, как мы видим, не я один хочу конкретику. Так что или выдавайте, или так и будете со стеной разговаривать. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 14:22 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
habrГруппировка ошибок И ещё один процесс, которому следует уделить внимание, — группировка ошибок. От неё зависит, как быстро вы сможете обнаруживать наиболее критичные ошибки среди всех остальных событий. Человек, не знакомый с тем, как устроены системы обработки ошибок, может подумать, что в них используются какие-то сложные алгоритмы для определения схожести строк. Но в действительности все популярные системы используют группировку по ключу (fingerprint), потому что это просто в реализации и покрывает большинство кейсов. https://habr.com/ru/company/badoo/blog/522600 ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 15:46 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Группировка по ключу не будет работать если месседж об ошибке содержит уникальный параметр (timestamp, sequemce, UUID) и тогда нужно сворачивать в вектор текстовых токенов как я предлагаю. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 16:09 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
параметр не решает, там все сообщения по типам как он пишет: они одинаковые по сути, только по времени разные так что их запросто можно по типу группировать. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 16:31 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Лучше 1 раз увидеть. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 16:32 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron, скажу нелицеприятно и прямолинейно. Статистика сама ничего не выявит. Ей надо знать, что важно выявлять. Ей мало формальных закорючек. Ей нужна и семантика закорючек. Как пример см. "факторный анализ". Если вам нужно универсальное решение (а в каких пределах универсальное?). И вам хочется сферической близости , однако тоже универсальной. Тогда вся теория неровных сеток, распознавания образов, нечётких множеств и статистики к вашим услугам в полном объёме. Выбирайте сами что и как оттуда взять и как настроить. В частности опробуйте Кохонена для автоматического выделения кластеров с заранее неизвестным кол-вом кластеров. Только её как-то поучить придётся на представительном объёме логов (в сферическом случае до 1/3 от всех логов). Но для этого логи вам придётся почитать лично. В конце-концов м.б. сетка сообразит чего вы от неё хотите. Увы вам, сеткам тоже трэба семантики. Ещё можете попробовать нечто, что скрывается внутри тындекса. Читайте основы. Например метод LSA. Наконец, вопрос, к-рый ещё никто не задал: "Ужели у вас там в Germany / Stuttga совсем плохо со спецами, вкл. вас лично, коли вы здесь спрашиваете и не можете пояснить компетентно заданные встречные вопросы?" P.S. На самом деле ничего противо личного не имею. Написал исключительно о вашей компетенции. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 16:58 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton Нам нужен образец логов. Хотя-бы 3 разных месседжа. Понимаю что у тебя NDA и все такое. Но дальше не двинемся никуда без семплов. Я их показать не могу . Без вариантов. Поверьте мне на слово что, 3 сообщения не дадут даже 1% всей картины. А если так, то давайте рассматривать любой произвольный лог какой-нибудь большой системы и попытаться на нём выделить кластеры. И, да, правильно, проблема кластеризации, но вопрос здесь не в том, как выделить кластеры, а в том как мерить расстояния. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 17:34 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov mikron Я тоже не могу просматривать все сообщения и определять что в каждом из них значимо. А почему, собственно? Прочитал сообщение, увидел, что оно незначимо - пошёл и убрал его вывод из модуля, чтобы в логе оно больше никогда не появлялось. Обычная работа программиста. Причин много: 1. их очень много. за день более 6 ГБ. 2. во вторых, я не могу менять сообщения. 3. они меняются сами со временем. 4. То что было неважно вчера может быть важно сегодня. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 17:42 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton Я понял. По смыслу это похоже на кластеризацию векторов с автоматическим выделением новых центров в признаках. Тоесть мы не задаём жестко N центров а просто ищем следующий вектор который наиболее ДАЛЕКО остоит от N уже известных. Нет, не совсем. Мы не ищем вектор, мы пытаемся динамически определить является ли новый полученный вектор членом одного из известных кластеров или выступает членом нового. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 17:47 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Алексей Роза я полагаю потому, что у него там тот ещё бардак и месиво Всё так и даже хуже. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 17:49 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron Алексей Роза я полагаю потому, что у него там тот ещё бардак и месиво Всё так и даже хуже. ну так у вас же своя выделенная БД, которая эти логи агрегирует (ах если бы) она же для этого и нужна, чтобы делать всё что захочешь для их анализа и агрегировать, оптимизировать, типизировать и т.д. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:11 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Алексей Роза параметр не решает, там все сообщения по типам как он пишет: они одинаковые по сути, только по времени разные так что их запросто можно по типу группировать. Что то вы не так поняли. Пример здесь 22216923 Тип сообщения может быть одинаковый, но сколько в нём параметров я не знаю. Другими словами мне не известен шаблон для формата "Unable detect delivery address for customer %s / oder %s on %s." ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:17 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Алексей Роза mikron пропущено... Всё так и даже хуже. ну так у вас же своя выделенная БД, которая эти логи агрегирует (ах если бы) она же для этого и нужна, чтобы делать всё что захочешь для их анализа и агрегировать, оптимизировать, типизировать и т.д. У вас богатое воображение. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:20 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
1) Разбиваем лог на лексемы 2) Считаем количество каждой лексемы в логе 3) Полученные много-много мерные векторы и кластеризуем. 4) Когда кластеризовали, при получении нового лога пытаемся определить в ближайший кластер. Если ни в один не влезает, значит родился новый кластер. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:23 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
В этом случае вы также увидите, что в определенной группе логов одни лексемы часто встречаются, а другие нет. Это и будут кластеры, и по этому признаку можно будет и новые логи определять. Ну и мусорные лексемы, которые незначимы для определения типа тоже увидите. Их можно будет выкидывать. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:25 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
exp98, и тем не менее вы переходите на личности. Какая вам разница, и какое это имеет отношение к вопросу, где я, как у меня со специалистами? Если я для вас не компетентен - проходите мимо. От вас я ответа не заметил. Может я чего упустил, повторите пожалуйста "компетентно заданные встречные вопросы". ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:37 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron mayton Нам нужен образец логов. Хотя-бы 3 разных месседжа. Понимаю что у тебя NDA и все такое. Но дальше не двинемся никуда без семплов. Я их показать не могу . Без вариантов. Поверьте мне на слово что, 3 сообщения не дадут даже 1% всей картины. А если так, то давайте рассматривать любой произвольный лог какой-нибудь большой системы и попытаться на нём выделить кластеры. И, да, правильно, проблема кластеризации, но вопрос здесь не в том, как выделить кластеры, а в том как мерить расстояния. Блин. Ты заставляешь меня идти на преступление... Выкладывать СВОИ тестовые данные и выдавать из за твои! Ну представь какой уровень натяжки получается. Я - с твоих слов создал тестовые данные! ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:46 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Ржавый гвоздь В этом случае вы также увидите, что в определенной группе логов одни лексемы часто встречаются, а другие нет. Это и будут кластеры, и по этому признаку можно будет и новые логи определять. Ну и мусорные лексемы, которые незначимы для определения типа тоже увидите. Их можно будет выкидывать. Я-бы из логов сразу выкидывал isoDateTime, UUID, и прочее. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:48 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron Алексей Роза пропущено... ну так у вас же своя выделенная БД, которая эти логи агрегирует (ах если бы) она же для этого и нужна, чтобы делать всё что захочешь для их анализа и агрегировать, оптимизировать, типизировать и т.д. У вас богатое воображение. И это прекрасно Однако оно к данной теме отношения не имеет, вот ваши слова: mikron Есть небольшая база где собираются сообщения из логов одной энтерпрайзной системы. отдельная база, где агрегируются данные, сам бох велел их крутить-вертеть, чтобы удобнее было аналитить. mikron Алексей Роза параметр не решает, там все сообщения по типам как он пишет: они одинаковые по сути, только по времени разные так что их запросто можно по типу группировать. Что то вы не так поняли. Пример здесь 22216923 Тип сообщения может быть одинаковый, но сколько в нём параметров я не знаю. Другими словами мне не известен шаблон для формата "Unable detect delivery address for customer %s / oder %s on %s." И снова я всё понял именно так, как написано. Вот! мы уже пришли к тому, что ТИП у них одинаковый. А я об этом ещё на прошлой странице писал и тоже был "не так понят". Вам и не надо знать весь шаблон. Если у вас есть много сообщений с "Unable detect delivery address for customer", и ещё много с другими словами, и много с другими, то это всё уже делится по типам. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:49 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mayton Я-бы из логов сразу выкидывал isoDateTime, UUID, и прочее. Ну да, что то такое очевидное сразу можно выкинуть. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:50 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Ржавый гвоздь 1) Разбиваем лог на лексемы 2) Считаем количество каждой лексемы в логе Я даже думаю что для задачи автора веса или частоты лексемы не имеют значения. Можно просто Set[String] а потом свернуть это до биткарты. И функция расстояния будет - расстоянием Хемминга. Это упрощает расчет групп или кластеризацию. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 18:51 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
Алексей Роза mikron У вас богатое воображение. И это прекрасно Однако оно к данной теме отношения не имеет, вот ваши слова: mikron Есть небольшая база где собираются сообщения из логов одной энтерпрайзной системы. отдельная база, где агрегируются данные, сам бох велел их крутить-вертеть, чтобы удобнее было аналитить. Цитируйте полностью, в том-же посте. mikron В базе собранны не все сообщения а так сказать только представители каждого типа ошибок. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 19:02 |
|
Нетривиальная задача анализа текстовых сообщений
|
|||
---|---|---|---|
#18+
mikron mikron В базе собранны не все сообщения а так сказать только представители каждого типа ошибок. Ну так вам это и надо. Проанализировать, как выглядят сообщения разных типов. Разве нет? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.10.2020, 19:05 |
|
|
start [/forum/topic.php?fid=16&msg=40010158&tid=1339719]: |
0ms |
get settings: |
8ms |
get forum list: |
11ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
168ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
70ms |
get tp. blocked users: |
1ms |
others: | 13ms |
total: | 290ms |
0 / 0 |