|
Чем лучше обрабатывать статистику ?
|
|||
---|---|---|---|
#18+
Есть некий сервис, который генерирует логи через nginx. Нагрузка порядка 2-4 млн записей в минуту. Нужно по логам делать статистику ( стандартные хосты, уники и тп + поведение юзеров по сессиям - те анализ отдельно по каждой сессии + агрегация всего этого ). Желательно чтобы это все обрабатывалось в почти реальном времени ( ну с некоторой задержкой - это допустимо ). Какие есть варианты для решения задачи ? Я предполагаю использовать hdfs на серверах и писать туда логи через какой нить транспорт чанками ( syslog или fluentd ) например по 15 минут. После через hive или spark ( кстати что лучше для этой цели ? ) анализировать логи по сессиям и соотв агрегировать статистику ( кстати это можно делать там удобно или нет ? ). В этом случае если я правильно понимаю нагрузка будет только на файловую систему hdfs кластера ( куда будут писаться логи ) + в зависимости от мощности процессоров се рверов будет получать искомую статистику. Ну и результат засовывать в какую нить cassandra ( или что там лучше для этой цели ? ) Другой вариант: logstash в качестве транспорта пишет логи в elasticsearch, далее все это анализируется в kibana. Но будет ли в данном случае вариант приемлим ? Если я правильно понимаю логи будут писаться непосредственно в БД elasticsearch ? По идее нагрузка на железо в данном случае будет больше ( интересно насколько )? И если я правильно понимаю, что kibana больше предназначена для быстрой визуализации данных ( т е для задач типа: взять сырой лог, "накликать" в интерфейсе условия выборки и просмотреть ) - и соотв. проследить пользователей по сессиям тут уже затруднительно тем более через скрипты или я ошибаюсь ? ... |
|||
:
Нравится:
Не нравится:
|
|||
19.02.2015, 12:54 |
|
Чем лучше обрабатывать статистику ?
|
|||
---|---|---|---|
#18+
Jopich, http://www.intersystems.ru/press/2013/gaia-mission-1yr-later.html ИМХО, в чем-то сходная задача. Прием данных и первичная обработка в СУБД Cache, с перегрузкой на хранение и расчеты в Hadoop. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.02.2015, 09:52 |
|
Чем лучше обрабатывать статистику ?
|
|||
---|---|---|---|
#18+
Или эта задача. Вполне возможно, и встроенного BI ( DeepSee ) хватило бы. Но тем не менее в последних версиях СУБД Caché появилась и интеграция с Hadoop (Hadoop Gateway). ... |
|||
:
Нравится:
Не нравится:
|
|||
20.02.2015, 10:32 |
|
Чем лучше обрабатывать статистику ?
|
|||
---|---|---|---|
#18+
Jopich, Splunk ? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.02.2015, 17:56 |
|
|
start [/forum/topic.php?fid=48&fpage=9&tid=1856851]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
36ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
45ms |
get tp. blocked users: |
2ms |
others: | 14ms |
total: | 146ms |
0 / 0 |