powered by simpleCommunicator - 2.0.48     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Чем лучше обрабатывать статистику ?
5 сообщений из 5, страница 1 из 1
Чем лучше обрабатывать статистику ?
    #38883856
Jopich
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Есть некий сервис, который генерирует логи через nginx. Нагрузка порядка 2-4 млн записей в минуту. Нужно по логам делать статистику ( стандартные хосты, уники и тп + поведение юзеров по сессиям - те анализ отдельно по каждой сессии + агрегация всего этого ).
Желательно чтобы это все обрабатывалось в почти реальном времени ( ну с некоторой задержкой - это допустимо ).

Какие есть варианты для решения задачи ?

Я предполагаю использовать hdfs на серверах и писать туда логи через какой нить транспорт чанками ( syslog или fluentd ) например по 15 минут. После через hive или spark ( кстати что лучше для этой цели ? ) анализировать логи по сессиям и соотв агрегировать статистику ( кстати это можно делать там удобно или нет ? ). В этом случае если я правильно понимаю нагрузка будет только на файловую систему hdfs кластера ( куда будут писаться логи ) + в зависимости от мощности процессоров се рверов будет получать искомую статистику. Ну и результат засовывать в какую нить cassandra ( или что там лучше для этой цели ? )

Другой вариант: logstash в качестве транспорта пишет логи в elasticsearch, далее все это анализируется в kibana. Но будет ли в данном случае вариант приемлим ? Если я правильно понимаю логи будут писаться непосредственно в БД elasticsearch ? По идее нагрузка на железо в данном случае будет больше ( интересно насколько )? И если я правильно понимаю, что kibana больше предназначена для быстрой визуализации данных ( т е для задач типа: взять сырой лог, "накликать" в интерфейсе условия выборки и просмотреть ) - и соотв. проследить пользователей по сессиям тут уже затруднительно тем более через скрипты или я ошибаюсь ?
...
Рейтинг: 0 / 0
Чем лучше обрабатывать статистику ?
    #38884690
Фотография DirksDR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jopich,

http://www.intersystems.ru/press/2013/gaia-mission-1yr-later.html

ИМХО, в чем-то сходная задача. Прием данных и первичная обработка в СУБД Cache, с перегрузкой на хранение и расчеты в Hadoop.
...
Рейтинг: 0 / 0
Чем лучше обрабатывать статистику ?
    #38884726
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Или эта задача.
Вполне возможно, и встроенного BI ( DeepSee ) хватило бы.
Но тем не менее в последних версиях СУБД Caché появилась и интеграция с Hadoop (Hadoop Gateway).
...
Рейтинг: 0 / 0
Чем лучше обрабатывать статистику ?
    #38885318
lookat
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Jopich,

Splunk ?
...
Рейтинг: 0 / 0
Чем лучше обрабатывать статистику ?
    #38885500
DPH3
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jopich,

VoltDB? Там и сложную логику обработки можно сделать с первичной агрегацией и такой объем данных вполне потянет.
...
Рейтинг: 0 / 0
5 сообщений из 5, страница 1 из 1
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Чем лучше обрабатывать статистику ?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]