powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нетривиальная задача анализа текстовых сообщений
25 сообщений из 103, страница 4 из 5
Нетривиальная задача анализа текстовых сообщений
    #40010437
mayton
Алексей Роза
да к нему бесполезно, чел плотно подсел на телепатию.
у тебя пример абстрактный, ну вот я абстрактно говорю, что всё есть, осталось только понять, что надо.
и уже от этого плясать.

Вот у меня конкретный лог.

Были унылые сообщения. Я классифицировал их как центр кластера. Видите? Они почти одинаковы?

Код: sql
1.
2.
3.
2020-10-20 22:02:44.969  INFO 19326 --- [extShutdownHook] i.a.a.c.command.impl.CommandChannelImpl  : Unregistered handler for command mayton.spring.axon.probeaxon.command.DeselectFoodCardCommand
2020-10-20 22:02:44.970  INFO 19326 --- [extShutdownHook] i.a.a.c.command.impl.CommandChannelImpl  : Unregistered handler for command mayton.spring.axon.probeaxon.command.CreateFoodCardCommand
2020-10-20 22:02:44.971  INFO 19326 --- [extShutdownHook] i.a.a.c.command.impl.CommandChannelImpl  : Unregistered handler for command mayton.spring.axon.probeaxon.command.SelectFoodCardCommand



И все другие также попадают в известные кластеры.

Внезапно (!) прилетает новое сообщение. И оно - не классифицируется. И mikron получает на почту алёрт
с красным лопухом. "Shutting down ...." e.t.c.

Код: sql
1.
2020-10-20 22:02:45.173  INFO 19326 --- [extShutdownHook] o.s.s.concurrent.ThreadPoolTaskExecutor  : Shutting down ExecutorService 'applicationTaskExecutor'




Вот так я себе понимаю проблему топика.

да, это если у тебя описан только ОДИН вариант, а всё остальное у тебя прилетают, как "ОГО, что-то новенькое"
на самом деле там все варианты должны быть известны заранее и каждый соответственно обрабатываться
(впихиваться в новую БД через свой регексп или ещё как)
"Shutting down" - это тип события вполне себе.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010439
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Про shutting down - это была моя шутка юмора.

В самом деле. Мне как и вам лень искать репрезентативные логи. А продуктовые - айайай.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010454
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ржавый гвоздь
Я валяюсь с этой темы Автору нужен "нетривиальный анализ", но он предлагает помогающим самим лазить по гитхабам в поисках тестовых данных для его задачи... Шта? Троллинг такой троллинг. И охота вам нянчиться с этим?

:)) О какой помощи тут на форуме может идти речь? talk is cheap.
Я так вижу: я предлагаю интересную тему, если кому интересно обсудить и пошевелить мозгами.
Ну а если нет прохожий, проходи мимо, не мусори в топике своим ЧСВ.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010457
mayton
Про shutting down - это была моя шутка юмора.

В самом деле. Мне как и вам лень искать репрезентативные логи. А продуктовые - айайай.

а помнится мы на "ты" были
али дистанцируешься?
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010458
Занятная трактовка смысла существования форума
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010460
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mayton
Про shutting down - это была моя шутка юмора.

В самом деле. Мне как и вам лень искать репрезентативные логи. А продуктовые - айайай.

а помнится мы на "ты" были
али дистанцируешься?

Ты читал "Сказку о Тройке" ? Там был такой персонаж. Хлебовводов. Так вот он разговаривал
переключаясь то на "ты". То на "вы".
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010463
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
Несколько мыслей...
1. В данной задаче есть элемент обучения.
2. В данной задаче есть некое устойчивое состояние кластеров
3. Есть контрольная точка времени t. После которой мы пускаем систему в режим продолжения обнаружения
кластеров ........... Не исключено что в процессе работы количество кластеров будет расти что само по себе плохо.
Т.к. новые кластеры ухудшают избирательность системы и их надо будет чистить.
Согласен. Это для кластерного решения. С поправкой, что рост количества кл. не бесконечен, если заранее задать верхний порог их кол-ва. Или если не пересчитывать всё с начала. И если метрика достаточно адекватная. Со временем рост замедлится в любом случае. Я думаю, что большинство классов уже известны заранее.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010466
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В данном топике (как и во многих) не хватает самого главного. Внятных требований. Или даже не требований а юзкейса.
Типа я как девопс системы X хочу получать на почту уведомления о новых и неопознанных сообщениях ошибок
в логах. Образец таких сообщений - прилагается.

Почему скажите мы, помогающие должны искать эти образцы. Автор должен сделать хоть чуточку усилий.

А то получается что вроде как ему надо... но не сильно... Такое отношение и нас расхолаживает.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010467
mayton
Алексей Роза
пропущено...

а помнится мы на "ты" были
али дистанцируешься?

Ты читал "Сказку о Тройке" ? Там был такой персонаж. Хлебовводов. Так вот он разговаривал
переключаясь то на "ты". То на "вы".

не читал. он шизофреником был?
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010468
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Алексей Роза
mayton
пропущено...

Ты читал "Сказку о Тройке" ? Там был такой персонаж. Хлебовводов. Так вот он разговаривал
переключаясь то на "ты". То на "вы".

не читал. он шизофреником был?

Не знаю но со стороны это было блин... как будто давление оказывал

А что касается меня... то я просто забыл к кому как обращался.


Сказка о Тройке— Я бы попросил! — прервал его Хлебовводов. — Ты что это нам читаете? Ты это нам роман читаете? Или водевиль? Ты, браток, анкету нам зачитываете, а получается у тебя водевиль.
Лавр Федотович взял бинокль и направил на коменданта. Комендант сник.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010470
ну так то по статусу модера положено на "вы"...
и путаться не будеТЕ
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010472
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Да забей. Ничего не положено и не покладено.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010480
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron
:)) О какой помощи тут на форуме может идти речь?

Для автора. В последний раз бесплатно предлагаю вариант решения. На сферический вопрос можно дать такой же сферичности ответ.

Надеюсь, начальная классификация сообщений имеется. Далее изменение и рост классов поисходит в автоматизированномрежиме (т.е. не на полном автомате).
Надеюсь, что все сообщения, а не только представители, помечены признаком класса. И имеется доступк ним ко всем.
Далее технология простая, если можно так сказать. Всё делается по подобию поисковиков, только без рекламы. И метрика похожая, "полнотекстовая".

Каждое сообщение превращается в лексемы и рассматривается как предложение из лексем на естественном языке. Почему на естественном? возможны омонимы, синонимы, выпадения и перестановки порядка лексем. Т.е. немного контекстно-зависимая грамматика.
Сделать поисковый запрос к этому массиву.
Вываливается упорядоченный список "подходящих" представителей.
Первый из них самый релевантный. Если что-то новое, то да, в базу новых классов, а потом на ручное усмотрение оператора. Здесь возможны варианты.

Наверняка есть десктопные поисковые приложения. Это для обкатки и отладки решения.


Если у автора остались вопросы, предлагаю услугу, 4-6К$ за разработку алгоритма. По сути за ТЗ кодеру, торг уместен. Ибо алгоритм универсальный, и он затребуется в бизнесе, а закодить желающих найти нетрудно.
Автору успехов.
"Не нравится - проходи мимо"(цэ)
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010482
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
В данном топике (как и во многих) не хватает самого главного. Внятных требований. Или даже не требований а юзкейса.
Авторские темы не смотрел, но в профиле добрая 1/3 это C#, что как бы намекает на статус сотрудника. И если я прав, то откуда тогда взяться умению к самостоятельной и грамотной постановке задачи.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010490
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mayton
А то получается что вроде как ему надо... но не сильно... Такое отношение и нас расхолаживает.

это как хобби. Будет больше времени посмотрю bugtracker JBOSS-a для примеров.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010495
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
exp98
mayton
В данном топике (как и во многих) не хватает самого главного. Внятных требований. Или даже не требований а юзкейса.
Авторские темы не смотрел, но в профиле добрая 1/3 это C#, что как бы намекает на статус сотрудника. И если я прав, то откуда тогда взяться умению к самостоятельной и грамотной постановке задачи.


Да что же вам ещё не понятно? Процесс описал, вопросы чётко сформулировал, на конкретном примере с bagtracker usecase показал. О чем ещё плач? Задавайте конкретные вопросы.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010496
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Хобби .... и почему же я не верю? Наверное потому, что в игровой задачке исходные данные не скрывают. И про критичность по времени не заикаются. Здесь очевидный бизнес интерес. Пусть даже и личный. Но тогда и начинать надо со слова Помогите .... а не эксплуатировать добрые порывы.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010497
exp98
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
mikron
Да что же вам ещё не понятно? ...
Мне? понятно кроме конкретики. Ответ я дал. Что в нём вам лично не понятно? Мне в нём понятно всё.

Давно было сказано.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010516
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Вот неплохой обзор по алгоритмам кластеризации.

https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010519
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Остался пустяк - рассказать автору как подготовить данные. Это собственно самая сложная часть задачи.
И оптимизации. Подозреваю что количество записей в логах меряется миллионами. И тут без этого не обойтись.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010600
mikron
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Это мой последний пост (номер красивый)
Я наблюдаю у нас разный уровень, культура, менталитет.
Дискуссий не получается, все скатывается к позёрству и глупым нападкам. Бессмысленная бесконечная война.
Мне это не нужно и жаль времени.
Всем успешных баталий.
IMXO Форум в таком виде, когда нельзя фильтровать/собирать оппонентов, как социальная платформа уже не актуален.
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010605
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Из реализаций вот тут есть

http://commons.apache.org/proper/commons-math/apidocs/org/apache/commons/math4/ml/clustering/package-summary.html

  • KMeansPlusPlusClusterer - метод К-средних
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010621
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Работает. Толкаем туда 1000 точек на плоскости с координатами (0,100) (100,0) плюс гауссовый шум
с средним отклонением 30.

Код: java
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
public class MaytonsFuckenKMeansTest {

    public static void main(String[] args) {
        KMeansPlusPlusClusterer<DoublePoint> algorithm = new KMeansPlusPlusClusterer<>(2);
        List<DoublePoint> doublePoints = new ArrayList<>();
        Random random = new Random();
        for (int i = 0; i < 500; i++) {
            DoublePoint doublePoint = new DoublePoint(new double[] {100.0 + 30 * random.nextGaussian(),30 * random.nextGaussian()});
            doublePoints.add(doublePoint);
            DoublePoint doublePoint2 = new DoublePoint(new double[] {30 * random.nextGaussian(), 30 * random.nextGaussian() + 100.0});
            doublePoints.add(doublePoint2);
        }
        Collections.shuffle(doublePoints);
        List<CentroidCluster<DoublePoint>> result = algorithm.cluster(doublePoints);
        for(CentroidCluster resItem : result) {
            Arrays.stream(resItem.getCenter().getPoint()).forEach(v -> {
                System.out.printf("%f ", v);
            });
            System.out.println();
        }
    }
}



При известном количестве средних он находит вот такое.

0.677541 101.093618
99.788184 2.010144
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010646
mikron
Это мой последний пост (номер красивый)
Я наблюдаю у нас разный уровень, культура, менталитет.
Дискуссий не получается, все скатывается к позёрству и глупым нападкам. Бессмысленная бесконечная война.
Мне это не нужно и жаль времени.
Всем успешных баталий.
IMXO Форум в таком виде, когда нельзя фильтровать/собирать оппонентов, как социальная платформа уже не актуален.

почаще ходи по форумам со спрятанными наглухо данными и показом ЛЕВЫХ данных
а потом ной погромче, что форум говно и ничем не помог
...
Рейтинг: 0 / 0
Нетривиальная задача анализа текстовых сообщений
    #40010650
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Странный он. Вроде в форуме с 2009 года. Обидчивый.
...
Рейтинг: 0 / 0
25 сообщений из 103, страница 4 из 5
Форумы / Программирование [игнор отключен] [закрыт для гостей] / Нетривиальная задача анализа текстовых сообщений
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]