Гость
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Чем лучше обрабатывать статистику ? / 5 сообщений из 5, страница 1 из 1
19.02.2015, 12:54
    #38883856
Jopich
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Чем лучше обрабатывать статистику ?
Есть некий сервис, который генерирует логи через nginx. Нагрузка порядка 2-4 млн записей в минуту. Нужно по логам делать статистику ( стандартные хосты, уники и тп + поведение юзеров по сессиям - те анализ отдельно по каждой сессии + агрегация всего этого ).
Желательно чтобы это все обрабатывалось в почти реальном времени ( ну с некоторой задержкой - это допустимо ).

Какие есть варианты для решения задачи ?

Я предполагаю использовать hdfs на серверах и писать туда логи через какой нить транспорт чанками ( syslog или fluentd ) например по 15 минут. После через hive или spark ( кстати что лучше для этой цели ? ) анализировать логи по сессиям и соотв агрегировать статистику ( кстати это можно делать там удобно или нет ? ). В этом случае если я правильно понимаю нагрузка будет только на файловую систему hdfs кластера ( куда будут писаться логи ) + в зависимости от мощности процессоров се рверов будет получать искомую статистику. Ну и результат засовывать в какую нить cassandra ( или что там лучше для этой цели ? )

Другой вариант: logstash в качестве транспорта пишет логи в elasticsearch, далее все это анализируется в kibana. Но будет ли в данном случае вариант приемлим ? Если я правильно понимаю логи будут писаться непосредственно в БД elasticsearch ? По идее нагрузка на железо в данном случае будет больше ( интересно насколько )? И если я правильно понимаю, что kibana больше предназначена для быстрой визуализации данных ( т е для задач типа: взять сырой лог, "накликать" в интерфейсе условия выборки и просмотреть ) - и соотв. проследить пользователей по сессиям тут уже затруднительно тем более через скрипты или я ошибаюсь ?
...
Рейтинг: 0 / 0
20.02.2015, 09:52
    #38884690
DirksDR
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Чем лучше обрабатывать статистику ?
Jopich,

http://www.intersystems.ru/press/2013/gaia-mission-1yr-later.html

ИМХО, в чем-то сходная задача. Прием данных и первичная обработка в СУБД Cache, с перегрузкой на хранение и расчеты в Hadoop.
...
Рейтинг: 0 / 0
20.02.2015, 10:32
    #38884726
servit
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Чем лучше обрабатывать статистику ?
Или эта задача.
Вполне возможно, и встроенного BI ( DeepSee ) хватило бы.
Но тем не менее в последних версиях СУБД Caché появилась и интеграция с Hadoop (Hadoop Gateway).
...
Рейтинг: 0 / 0
20.02.2015, 17:56
    #38885318
lookat
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Чем лучше обрабатывать статистику ?
Jopich,

Splunk ?
...
Рейтинг: 0 / 0
21.02.2015, 00:53
    #38885500
DPH3
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Чем лучше обрабатывать статистику ?
Jopich,

VoltDB? Там и сложную логику обработки можно сделать с первичной агрегацией и такой объем данных вполне потянет.
...
Рейтинг: 0 / 0
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Чем лучше обрабатывать статистику ? / 5 сообщений из 5, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]