Чем лучше обрабатывать статистику ? / NoSQL, Big Data

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Чем лучше обрабатывать статистику ?

5 сообщений из 5, страница 1 из 1

Чем лучше обрабатывать статистику ?

#38883856

Jopich

Гость

Есть некий сервис, который генерирует логи через nginx. Нагрузка порядка 2-4 млн записей в минуту. Нужно по логам делать статистику ( стандартные хосты, уники и тп + поведение юзеров по сессиям - те анализ отдельно по каждой сессии + агрегация всего этого ).
Желательно чтобы это все обрабатывалось в почти реальном времени ( ну с некоторой задержкой - это допустимо ).

Какие есть варианты для решения задачи ?

Я предполагаю использовать hdfs на серверах и писать туда логи через какой нить транспорт чанками ( syslog или fluentd ) например по 15 минут. После через hive или spark ( кстати что лучше для этой цели ? ) анализировать логи по сессиям и соотв агрегировать статистику ( кстати это можно делать там удобно или нет ? ). В этом случае если я правильно понимаю нагрузка будет только на файловую систему hdfs кластера ( куда будут писаться логи ) + в зависимости от мощности процессоров се рверов будет получать искомую статистику. Ну и результат засовывать в какую нить cassandra ( или что там лучше для этой цели ? )

Другой вариант: logstash в качестве транспорта пишет логи в elasticsearch, далее все это анализируется в kibana. Но будет ли в данном случае вариант приемлим ? Если я правильно понимаю логи будут писаться непосредственно в БД elasticsearch ? По идее нагрузка на железо в данном случае будет больше ( интересно насколько )? И если я правильно понимаю, что kibana больше предназначена для быстрой визуализации данных ( т е для задач типа: взять сырой лог, "накликать" в интерфейсе условия выборки и просмотреть ) - и соотв. проследить пользователей по сессиям тут уже затруднительно тем более через скрипты или я ошибаюсь ?

...

Рейтинг:

0 / 0

19.02.2015, 12:54

| Ответить | Цитировать | Написать

Чем лучше обрабатывать статистику ?

#38884690

DirksDR

Участник

Откуда: Пермь

Сообщения: 343

Рейтинг: 0 / 0

Jopich,

http://www.intersystems.ru/press/2013/gaia-mission-1yr-later.html

ИМХО, в чем-то сходная задача. Прием данных и первичная обработка в СУБД Cache, с перегрузкой на хранение и расчеты в Hadoop.

...

Рейтинг:

0 / 0

20.02.2015, 09:52

| Ответить | Цитировать | Написать

Чем лучше обрабатывать статистику ?

#38884726

servit

Участник

Откуда: г. Кишинёв, Республика Молдова

Сообщения: 3 167

Рейтинг: 0 / 0

Или эта задача.
Вполне возможно, и встроенного BI ( DeepSee ) хватило бы.
Но тем не менее в последних версиях СУБД Caché появилась и интеграция с Hadoop (Hadoop Gateway).

...

Рейтинг:

0 / 0

20.02.2015, 10:32

| Ответить | Цитировать | Написать

Чем лучше обрабатывать статистику ?

#38885318

lookat

Гость

Jopich,

Splunk ?

...

Рейтинг:

0 / 0

20.02.2015, 17:56

| Ответить | Цитировать | Написать

Чем лучше обрабатывать статистику ?

#38885500

DPH3

Участник

Сообщения: 524

Рейтинг: 0 / 0

Jopich,

VoltDB? Там и сложную логику обработки можно сделать с первичной агрегацией и такой объем данных вполне потянет.

...

Рейтинг:

0 / 0

21.02.2015, 00:53

| Ответить | Цитировать | Написать

5 сообщений из 5, страница 1 из 1

Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Чем лучше обрабатывать статистику ?

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=48&fpage=9&tid=1856851]:	0ms
get settings:	7ms
get forum list:	14ms
check forum access:	2ms
check topic access:	2ms
track hit:	22ms
get topic data:	10ms
get forum data:	2ms
get page messages:	49ms
get tp. blocked users:	2ms
others:	208ms

total:	318ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы