Нетривиальная задача анализа текстовых сообщений / Программирование

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нетривиальная задача анализа текстовых сообщений

25 сообщений из 103, страница 2 из 5

все

Нетривиальная задача анализа текстовых сообщений

#40010156

Алексей Роза

Гость

я полагаю потому, что у него там тот ещё бардак и месиво

...

Рейтинг:

0 / 0

20.10.2020, 14:13:05

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010158

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Dimitry Sibiryakov

mikron

Я тоже не могу просматривать все сообщения и определять что в каждом из них значимо.

А почему, собственно? Прочитал сообщение, увидел, что оно незначимо - пошёл и убрал его вывод из модуля, чтобы в логе оно больше никогда не появлялось. Обычная работа программиста.

Скорее всего там - анализ того что случилось post-mortem. Тоесть убрать сообщние на будущее - это какой-то
change-request но он не помогает решать текущий дефект.

...

Рейтинг:

0 / 0

20.10.2020, 14:19:28

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010160

Ржавый гвоздь

Гость

mikron

Мои вопросы возможно не всем доступны но вполне конкретны - как бы вы определяли схожесть сообщений?
Какой ваш ответ?

Я уже ответил на него в первом моем комментарии в этой теме. Ничего более конкретного сказать не могу, потому что вы не хотите давать дополнительных данных о вашей задаче. И, как мы видим, не я один хочу конкретику. Так что или выдавайте, или так и будете со стеной разговаривать.

...

Рейтинг:

0 / 0

20.10.2020, 14:22:21

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010177

istrebitel

Гость

habrГруппировка ошибок
И ещё один процесс, которому следует уделить внимание, — группировка ошибок. От неё зависит, как быстро вы сможете обнаруживать наиболее критичные ошибки среди всех остальных событий.

Человек, не знакомый с тем, как устроены системы обработки ошибок, может подумать, что в них используются какие-то сложные алгоритмы для определения схожести строк. Но в действительности все популярные системы используют группировку по ключу (fingerprint), потому что это просто в реализации и покрывает большинство кейсов.
https://habr.com/ru/company/badoo/blog/522600

...

Рейтинг:

0 / 0

20.10.2020, 15:46:34

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010189

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Группировка по ключу не будет работать если месседж об ошибке содержит уникальный параметр
(timestamp, sequemce, UUID) и тогда нужно сворачивать в вектор текстовых токенов как я предлагаю.

...

Рейтинг:

0 / 0

20.10.2020, 16:09:11

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010201

Алексей Роза

Гость

параметр не решает, там все сообщения по типам
как он пишет: они одинаковые по сути, только по времени разные
так что их запросто можно по типу группировать.

...

Рейтинг:

0 / 0

20.10.2020, 16:31:43

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010203

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Лучше 1 раз увидеть.

...

Рейтинг:

0 / 0

20.10.2020, 16:32:36

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010222

exp98

Участник

Сообщения: 2 390

Рейтинг: 0 / 0

mikron, скажу нелицеприятно и прямолинейно.

Статистика сама ничего не выявит. Ей надо знать, что важно выявлять. Ей мало формальных закорючек. Ей нужна и семантика закорючек. Как пример см. "факторный анализ".

Если вам нужно универсальное решение (а в каких пределах универсальное?). И вам хочется сферической близости , однако тоже универсальной. Тогда вся теория неровных сеток, распознавания образов, нечётких множеств и статистики к вашим услугам в полном объёме. Выбирайте сами что и как оттуда взять и как настроить.
В частности опробуйте Кохонена для автоматического выделения кластеров с заранее неизвестным кол-вом кластеров. Только её как-то поучить придётся на представительном объёме логов (в сферическом случае до 1/3 от всех логов). Но для этого логи вам придётся почитать лично. В конце-концов м.б. сетка сообразит чего вы от неё хотите. Увы вам, сеткам тоже трэба семантики.

Ещё можете попробовать нечто, что скрывается внутри тындекса. Читайте основы. Например метод LSA.

Наконец, вопрос, к-рый ещё никто не задал: "Ужели у вас там в Germany / Stuttga совсем плохо со спецами, вкл. вас лично, коли вы здесь спрашиваете и не можете пояснить компетентно заданные встречные вопросы?"

P.S. На самом деле ничего противо личного не имею. Написал исключительно о вашей компетенции.

...

Рейтинг:

0 / 0

20.10.2020, 16:58:05

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010247

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

mayton

Нам нужен образец логов. Хотя-бы 3 разных месседжа. Понимаю что у тебя NDA и все такое. Но дальше не двинемся никуда
без семплов.

Я их показать не могу . Без вариантов. Поверьте мне на слово что, 3 сообщения не дадут даже 1% всей картины.
А если так, то давайте рассматривать любой произвольный лог какой-нибудь большой системы и попытаться
на нём выделить кластеры. И, да, правильно, проблема кластеризации, но вопрос здесь не в том, как выделить кластеры,
а в том как мерить расстояния.

...

Рейтинг:

0 / 0

20.10.2020, 17:34:59

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010251

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

Dimitry Sibiryakov

mikron

Я тоже не могу просматривать все сообщения и определять что в каждом из них значимо.

Причин много: 1. их очень много. за день более 6 ГБ. 2. во вторых, я не могу менять сообщения. 3. они меняются сами со временем. 4. То что было неважно вчера может быть важно сегодня.

...

Рейтинг:

0 / 0

20.10.2020, 17:42:17

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010255

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

mayton

Я понял. По смыслу это похоже на кластеризацию векторов с автоматическим
выделением новых центров в признаках. Тоесть мы не задаём жестко N
центров а просто ищем следующий вектор который наиболее ДАЛЕКО остоит
от N уже известных.

Нет, не совсем. Мы не ищем вектор, мы пытаемся динамически определить является ли новый полученный вектор членом одного из известных кластеров или выступает членом нового.

...

Рейтинг:

0 / 0

20.10.2020, 17:47:21

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010258

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

Алексей Роза

я полагаю потому, что у него там тот ещё бардак и месиво

Всё так и даже хуже.

...

Рейтинг:

0 / 0

20.10.2020, 17:49:11

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010264

Алексей Роза

Гость

mikron

Алексей Роза

я полагаю потому, что у него там тот ещё бардак и месиво

Всё так и даже хуже.

ну так у вас же своя выделенная БД, которая эти логи агрегирует (ах если бы)
она же для этого и нужна, чтобы делать всё что захочешь для их анализа
и агрегировать, оптимизировать, типизировать и т.д.

...

Рейтинг:

0 / 0

20.10.2020, 18:11:01

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010265

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

Алексей Роза

Что то вы не так поняли. Пример здесь 22216923

Тип сообщения может быть одинаковый, но сколько в нём параметров я не знаю.
Другими словами мне не известен шаблон для формата "Unable detect delivery address for customer %s / oder %s on %s."

...

Рейтинг:

0 / 0

20.10.2020, 18:17:30

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010266

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

Алексей Роза

mikron

пропущено...

Всё так и даже хуже.

У вас богатое воображение.

...

Рейтинг:

0 / 0

20.10.2020, 18:20:32

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010269

Ржавый гвоздь

Гость

1) Разбиваем лог на лексемы
2) Считаем количество каждой лексемы в логе
3) Полученные много-много мерные векторы и кластеризуем.
4) Когда кластеризовали, при получении нового лога пытаемся определить в ближайший кластер. Если ни в один не влезает, значит родился новый кластер.

...

Рейтинг:

0 / 0

20.10.2020, 18:23:23

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010270

Ржавый гвоздь

Гость

В этом случае вы также увидите, что в определенной группе логов одни лексемы часто встречаются, а другие нет. Это и будут кластеры, и по этому признаку можно будет и новые логи определять. Ну и мусорные лексемы, которые незначимы для определения типа тоже увидите. Их можно будет выкидывать.

...

Рейтинг:

0 / 0

20.10.2020, 18:25:21

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010272

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

exp98,
и тем не менее вы переходите на личности. Какая вам разница, и какое это имеет отношение к вопросу, где я, как у меня со специалистами? Если я для вас не компетентен - проходите мимо. От вас я ответа не заметил.
Может я чего упустил, повторите пожалуйста "компетентно заданные встречные вопросы".

...

Рейтинг:

0 / 0

20.10.2020, 18:37:36

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010276

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

mikron

mayton

Блин. Ты заставляешь меня идти на преступление... Выкладывать СВОИ тестовые данные и выдавать из за твои!

Ну представь какой уровень натяжки получается. Я - с твоих слов создал тестовые данные!

...

Рейтинг:

0 / 0

20.10.2020, 18:46:10

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010278

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Ржавый гвоздь

Я-бы из логов сразу выкидывал isoDateTime, UUID, и прочее.

...

Рейтинг:

0 / 0

20.10.2020, 18:48:52

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010279

Алексей Роза

Гость

mikron

Алексей Роза

пропущено...

ну так у вас же своя выделенная БД, которая эти логи агрегирует (ах если бы)
она же для этого и нужна, чтобы делать всё что захочешь для их анализа
и агрегировать, оптимизировать, типизировать и т.д.

У вас богатое воображение.

И это прекрасно Однако оно к данной теме отношения не имеет, вот ваши слова:

mikron

Есть небольшая база где собираются сообщения из логов одной энтерпрайзной системы.

отдельная база, где агрегируются данные, сам бох велел их крутить-вертеть, чтобы удобнее было аналитить.

mikron

Алексей Роза

И снова я всё понял именно так, как написано.
Вот! мы уже пришли к тому, что ТИП у них одинаковый. А я об этом ещё на прошлой странице писал и тоже был "не так понят".
Вам и не надо знать весь шаблон. Если у вас есть много сообщений с "Unable detect delivery address for customer", и ещё много с другими словами, и много с другими, то это всё уже делится по типам.

...

Рейтинг:

0 / 0

20.10.2020, 18:49:52

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010280

Ржавый гвоздь

Гость

mayton

Я-бы из логов сразу выкидывал isoDateTime, UUID, и прочее.

Ну да, что то такое очевидное сразу можно выкинуть.

...

Рейтинг:

0 / 0

20.10.2020, 18:50:20

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010281

mayton

Участник

Откуда: loopback

Сообщения: 53 422

Рейтинг: 2 / 0

Ржавый гвоздь

1) Разбиваем лог на лексемы
2) Считаем количество каждой лексемы в логе

Я даже думаю что для задачи автора веса или частоты лексемы не имеют значения. Можно просто Set[String]
а потом свернуть это до биткарты.

И функция расстояния будет - расстоянием Хемминга. Это упрощает расчет групп или кластеризацию.

...

Рейтинг:

0 / 0

20.10.2020, 18:51:21

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010282

mikron

Участник

Сообщения: 865

Рейтинг: 0 / 0

Алексей Роза

mikron

У вас богатое воображение.

И это прекрасно Однако оно к данной теме отношения не имеет, вот ваши слова:

mikron

Есть небольшая база где собираются сообщения из логов одной энтерпрайзной системы.

отдельная база, где агрегируются данные, сам бох велел их крутить-вертеть, чтобы удобнее было аналитить.

Цитируйте полностью, в том-же посте.

mikron

В базе собранны не все сообщения а так сказать только представители каждого типа ошибок.

...

Рейтинг:

0 / 0

20.10.2020, 19:02:12

| Ответить | Цитировать | Написать

Нетривиальная задача анализа текстовых сообщений

#40010284

Ржавый гвоздь

Гость

mikron

В базе собранны не все сообщения а так сказать только представители каждого типа ошибок.

Ну так вам это и надо. Проанализировать, как выглядят сообщения разных типов. Разве нет?

...

Рейтинг:

0 / 0

20.10.2020, 19:05:19

| Ответить | Цитировать | Написать

25 сообщений из 103, страница 2 из 5

все

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=16&msg=40010189&tid=1339719]:	0ms
get settings:	6ms
get forum list:	20ms
check forum access:	3ms
check topic access:	3ms
track hit:	44ms
get topic data:	12ms
get forum data:	3ms
get page messages:	88ms
get tp. blocked users:	2ms
others:	206ms

total:	387ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы