powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нетривиальная задача анализа текстовых сообщений
25 сообщений из 103, страница 2 из 5
Нетривиальная задача анализа текстовых сообщений
    #40010156
я полагаю потому, что у него там тот ещё бардак и месиво
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010158
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov
mikron
Я тоже не могу просматривать все сообщения и определять что в каждом из них значимо.

А почему, собственно? Прочитал сообщение, увидел, что оно незначимо - пошёл и убрал его вывод из модуля, чтобы в логе оно больше никогда не появлялось. Обычная работа программиста.

Скорее всего там - анализ того что случилось post-mortem. Тоесть убрать сообщние на будущее - это какой-то
change-request но он не помогает решать текущий дефект.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010160
mikron

Мои вопросы возможно не всем доступны но вполне конкретны - как бы вы определяли схожесть сообщений?
Какой ваш ответ?

Я уже ответил на него в первом моем комментарии в этой теме. Ничего более конкретного сказать не могу, потому что вы не хотите давать дополнительных данных о вашей задаче. И, как мы видим, не я один хочу конкретику. Так что или выдавайте, или так и будете со стеной разговаривать.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010177
istrebitel
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
habrГруппировка ошибок
И ещё один процесс, которому следует уделить внимание, — группировка ошибок. От неё зависит, как быстро вы сможете обнаруживать наиболее критичные ошибки среди всех остальных событий.

Человек, не знакомый с тем, как устроены системы обработки ошибок, может подумать, что в них используются какие-то сложные алгоритмы для определения схожести строк. Но в действительности все популярные системы используют группировку по ключу (fingerprint), потому что это просто в реализации и покрывает большинство кейсов.
https://habr.com/ru/company/badoo/blog/522600
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010189
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Группировка по ключу не будет работать если месседж об ошибке содержит уникальный параметр
(timestamp, sequemce, UUID) и тогда нужно сворачивать в вектор текстовых токенов как я предлагаю.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010201
параметр не решает, там все сообщения по типам
как он пишет: они одинаковые по сути, только по времени разные
так что их запросто можно по типу группировать.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010203
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Лучше 1 раз увидеть.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010222
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron, скажу нелицеприятно и прямолинейно.

Статистика сама ничего не выявит. Ей надо знать, что важно выявлять. Ей мало формальных закорючек. Ей нужна и семантика закорючек. Как пример см. "факторный анализ".

Если вам нужно универсальное решение (а в каких пределах универсальное?). И вам хочется сферической близости , однако тоже универсальной. Тогда вся теория неровных сеток, распознавания образов, нечётких множеств и статистики к вашим услугам в полном объёме. Выбирайте сами что и как оттуда взять и как настроить.
В частности опробуйте Кохонена для автоматического выделения кластеров с заранее неизвестным кол-вом кластеров. Только её как-то поучить придётся на представительном объёме логов (в сферическом случае до 1/3 от всех логов). Но для этого логи вам придётся почитать лично. В конце-концов м.б. сетка сообразит чего вы от неё хотите. Увы вам, сеткам тоже трэба семантики.

Ещё можете попробовать нечто, что скрывается внутри тындекса. Читайте основы. Например метод LSA.

Наконец, вопрос, к-рый ещё никто не задал: "Ужели у вас там в Germany / Stuttga совсем плохо со спецами, вкл. вас лично, коли вы здесь спрашиваете и не можете пояснить компетентно заданные встречные вопросы?"

P.S. На самом деле ничего противо личного не имею. Написал исключительно о вашей компетенции.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010247
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Нам нужен образец логов. Хотя-бы 3 разных месседжа. Понимаю что у тебя NDA и все такое. Но дальше не двинемся никуда
без семплов.


Я их показать не могу . Без вариантов. Поверьте мне на слово что, 3 сообщения не дадут даже 1% всей картины.
А если так, то давайте рассматривать любой произвольный лог какой-нибудь большой системы и попытаться
на нём выделить кластеры. И, да, правильно, проблема кластеризации, но вопрос здесь не в том, как выделить кластеры,
а в том как мерить расстояния.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010251
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov
mikron
Я тоже не могу просматривать все сообщения и определять что в каждом из них значимо.

А почему, собственно? Прочитал сообщение, увидел, что оно незначимо - пошёл и убрал его вывод из модуля, чтобы в логе оно больше никогда не появлялось. Обычная работа программиста.

Причин много: 1. их очень много. за день более 6 ГБ. 2. во вторых, я не могу менять сообщения. 3. они меняются сами со временем. 4. То что было неважно вчера может быть важно сегодня.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010255
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Я понял. По смыслу это похоже на кластеризацию векторов с автоматическим
выделением новых центров в признаках. Тоесть мы не задаём жестко N
центров а просто ищем следующий вектор который наиболее ДАЛЕКО остоит
от N уже известных.


Нет, не совсем. Мы не ищем вектор, мы пытаемся динамически определить является ли новый полученный вектор членом одного из известных кластеров или выступает членом нового.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010258
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
я полагаю потому, что у него там тот ещё бардак и месиво

Всё так и даже хуже.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010264
mikron
Алексей Роза
я полагаю потому, что у него там тот ещё бардак и месиво

Всё так и даже хуже.

ну так у вас же своя выделенная БД, которая эти логи агрегирует (ах если бы)
она же для этого и нужна, чтобы делать всё что захочешь для их анализа
и агрегировать, оптимизировать, типизировать и т.д.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010265
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
параметр не решает, там все сообщения по типам
как он пишет: они одинаковые по сути, только по времени разные
так что их запросто можно по типу группировать.


Что то вы не так поняли. Пример здесь 22216923

Тип сообщения может быть одинаковый, но сколько в нём параметров я не знаю.
Другими словами мне не известен шаблон для формата "Unable detect delivery address for customer %s / oder %s on %s."
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010266
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mikron
пропущено...

Всё так и даже хуже.

ну так у вас же своя выделенная БД, которая эти логи агрегирует (ах если бы)
она же для этого и нужна, чтобы делать всё что захочешь для их анализа
и агрегировать, оптимизировать, типизировать и т.д.


У вас богатое воображение.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010269
1) Разбиваем лог на лексемы
2) Считаем количество каждой лексемы в логе
3) Полученные много-много мерные векторы и кластеризуем.
4) Когда кластеризовали, при получении нового лога пытаемся определить в ближайший кластер. Если ни в один не влезает, значит родился новый кластер.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010270
В этом случае вы также увидите, что в определенной группе логов одни лексемы часто встречаются, а другие нет. Это и будут кластеры, и по этому признаку можно будет и новые логи определять. Ну и мусорные лексемы, которые незначимы для определения типа тоже увидите. Их можно будет выкидывать.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010272
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98,
и тем не менее вы переходите на личности. Какая вам разница, и какое это имеет отношение к вопросу, где я, как у меня со специалистами? Если я для вас не компетентен - проходите мимо. От вас я ответа не заметил.
Может я чего упустил, повторите пожалуйста "компетентно заданные встречные вопросы".
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010276
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron
mayton
Нам нужен образец логов. Хотя-бы 3 разных месседжа. Понимаю что у тебя NDA и все такое. Но дальше не двинемся никуда
без семплов.


Я их показать не могу . Без вариантов. Поверьте мне на слово что, 3 сообщения не дадут даже 1% всей картины.
А если так, то давайте рассматривать любой произвольный лог какой-нибудь большой системы и попытаться
на нём выделить кластеры. И, да, правильно, проблема кластеризации, но вопрос здесь не в том, как выделить кластеры,
а в том как мерить расстояния.

Блин. Ты заставляешь меня идти на преступление... Выкладывать СВОИ тестовые данные и выдавать из за твои!

Ну представь какой уровень натяжки получается. Я - с твоих слов создал тестовые данные!
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010278
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ржавый гвоздь
В этом случае вы также увидите, что в определенной группе логов одни лексемы часто встречаются, а другие нет. Это и будут кластеры, и по этому признаку можно будет и новые логи определять. Ну и мусорные лексемы, которые незначимы для определения типа тоже увидите. Их можно будет выкидывать.

Я-бы из логов сразу выкидывал isoDateTime, UUID, и прочее.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010279
mikron
Алексей Роза
пропущено...

ну так у вас же своя выделенная БД, которая эти логи агрегирует (ах если бы)
она же для этого и нужна, чтобы делать всё что захочешь для их анализа
и агрегировать, оптимизировать, типизировать и т.д.


У вас богатое воображение.

И это прекрасно Однако оно к данной теме отношения не имеет, вот ваши слова:
mikron
Есть небольшая база где собираются сообщения из логов одной энтерпрайзной системы.

отдельная база, где агрегируются данные, сам бох велел их крутить-вертеть, чтобы удобнее было аналитить.

mikron
Алексей Роза
параметр не решает, там все сообщения по типам
как он пишет: они одинаковые по сути, только по времени разные
так что их запросто можно по типу группировать.


Что то вы не так поняли. Пример здесь 22216923

Тип сообщения может быть одинаковый, но сколько в нём параметров я не знаю.
Другими словами мне не известен шаблон для формата "Unable detect delivery address for customer %s / oder %s on %s."

И снова я всё понял именно так, как написано.
Вот! мы уже пришли к тому, что ТИП у них одинаковый. А я об этом ещё на прошлой странице писал и тоже был "не так понят".
Вам и не надо знать весь шаблон. Если у вас есть много сообщений с "Unable detect delivery address for customer", и ещё много с другими словами, и много с другими, то это всё уже делится по типам.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010280
mayton

Я-бы из логов сразу выкидывал isoDateTime, UUID, и прочее.

Ну да, что то такое очевидное сразу можно выкинуть.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010281
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ржавый гвоздь

1) Разбиваем лог на лексемы
2) Считаем количество каждой лексемы в логе

Я даже думаю что для задачи автора веса или частоты лексемы не имеют значения. Можно просто Set[String]
а потом свернуть это до биткарты.

И функция расстояния будет - расстоянием Хемминга. Это упрощает расчет групп или кластеризацию.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010282
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mikron
У вас богатое воображение.

И это прекрасно Однако оно к данной теме отношения не имеет, вот ваши слова:
mikron
Есть небольшая база где собираются сообщения из логов одной энтерпрайзной системы.

отдельная база, где агрегируются данные, сам бох велел их крутить-вертеть, чтобы удобнее было аналитить.

Цитируйте полностью, в том-же посте.
mikron
В базе собранны не все сообщения а так сказать только представители каждого типа ошибок.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010284
mikron

mikron
В базе собранны не все сообщения а так сказать только представители каждого типа ошибок.

Ну так вам это и надо. Проанализировать, как выглядят сообщения разных типов. Разве нет?
...
Рейтинг: 0 / 0
25 сообщений из 103, страница 2 из 5
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нетривиальная задача анализа текстовых сообщений
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]