powered by simpleCommunicator - 2.0.49     © 2025 Programmizd 02
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Посоветуйте систему для хранения логов
25 сообщений из 29, страница 1 из 2
Посоветуйте систему для хранения логов
    #39672822
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Необходимо хранить логи по всем действиям со всеми документами.
Объём данных : порядка 5 млн записей в сутки, а это около 2 млрд записей в год.
Структура данных: дата-время записи + идентификатор документа + всё остальное (сейчас порядка 20 полей, но список пересмотрим, скорее всего увеличим)
Сейчас это всё хранится в MS SQL. Что не устраивает:
из-за огромного объёма данных сервер их еле крутит

из-за огромного объёма данных запросы работают только по первичному ключу таблицы (документ), а хотелось бы проводить какую-либо аналитику по дате, возможно по другим полям
Что хотелось бы:

разнести данные по нескольким серверам, т.к. мощности 1 сервера явно не достаточно

делать выборки 2 типов: получать логи по 1 документу (индекс - документ) и получать выборку для анализа за период (индекс - дата)
Пробовали использовать Yandex ClickHouse - по началу устраивал, но с данными за пол года начал тормозить. Возможно не так настроили - сейчас перебираем варианты конфигураций. Также есть проблема с получением данных, на которую на форумах не могут ответить, а в документации не описываются такие детали. В общем сейчас стоим перед выбором: пытаться дальше тратить силы и разбираться с системой, либо попробовать другую.
Следующий кандидат на тестирование - Cassandra (+ spark поверх неё). Но чтобы создать 2 индекса необходимо будет, фактически, иметь 2 копии данных - каждую под свой индекс, что сильно скажется на занимаемом месте.
Возможно есть более подходящие системы.
Хотелось бы услышать мнения о том, какая система, на ваш взгляд, лучше подойдёт под нашу задачу?
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672834
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111Необходимо хранить логи по всем действиям со всеми документами.
Объём данных : порядка 5 млн записей в сутки, а это около 2 млрд записей в год.
...
Хотелось бы услышать мнения о том, какая система, на ваш взгляд, лучше подойдёт под нашу задачу?

hdfs+spark.
Индекс- предагрегация с сохранением по нужному ключу.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672844
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Alexey TominMax_11111Необходимо хранить логи по всем действиям со всеми документами.
Объём данных : порядка 5 млн записей в сутки, а это около 2 млрд записей в год.
...
Хотелось бы услышать мнения о том, какая система, на ваш взгляд, лучше подойдёт под нашу задачу?

hdfs+spark.
Индекс- предагрегация с сохранением по нужному ключу.
Пытался как-то поднять hadoop самостоятельно по мануалам - так и не осилил эти костыли. Есть готовые бесплатные сборки, желательно уже с Hive?
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672846
Alexey Tomin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111Alexey Tominпропущено...


hdfs+spark.
Индекс- предагрегация с сохранением по нужному ключу.
Пытался как-то поднять hadoop самостоятельно по мануалам - так и не осилил эти костыли. Есть готовые бесплатные сборки, желательно уже с Hive?

Cloudera же
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672850
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Alexey Tomin,

Спасибо, рассмотрим этот вариант
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672879
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111 ,

Может быть пока сосредоточиться на оптимизации/донастройке MSSQL?
И что говорят на соседнем форуме относительно вышеозвученных проблем/пожеланий?
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672890
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
servit Max_11111 ,

Может быть пока сосредоточиться на оптимизации/донастройке MSSQL?
И что говорят на соседнем форуме относительно вышеозвученных проблем/пожеланий?
Думаю с таким объёмом данных ресурс MS SQL уже исчерпан. Наличием дополнительного индекса проблему не решить, можно попробовать колоночное хранение, но мешаются текстовые столбцы с произвольными комментариями.
К тому-же очень хочется проводить какую-либо аналитику (какую, честно, сами ещё не решили. для того лог и собирается чтобы потом что-нибудь поанализировать), что не получится сделать на огромной таблице на одном сервере в MS SQL
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672909
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111Думаю с таким объёмом данных ресурс MS SQL уже исчерпан. Напрасно . И это уже в те далёкие времена..
Max_11111что не получится сделать на огромной таблице на одном сервере в MS SQLА Вы не делайте аналитику на одной "огромной таблице на одном сервере в MS SQL".

Шардинг, партицирование, репликация, зеркалирование, что-то ещё - не? (Я не специалист по MSSQL, но почему-то уверен, что и там это есть).

PS: обратитесь всё-таки к специалистам. Даже 100лярдов по нынешним меркам - не проблема, главное - правильно готовить.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672944
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
servitШардинг, партицирование, репликация, зеркалирование, что-то ещё - не? (Я не специалист по MSSQL, но почему-то уверен, что и там это есть).
и какой смысл платить за энтерпрайз редакцию, где все перечисленное не кастрированно, сумашедшие деньги ?
стандартный подход - ELK стек на хадупе.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39672955
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1и какой смысл платить за энтерпрайз редакцию, где все перечисленное не кастрированно, сумашедшие деньги ?ТС ничего не говорил про энтерпрайз редакцию и сумасшедшие деньги.
H5N1стандартный подход - ELK стек на хадупе.Для новых проектов - возможно, но не для уже существующих/унаследованных. Прежде чем принимать решение о переходе на совершенно что-то новое для себя и/или команды, следует выжать всё возможное из текущего. Пока же потенциал продукта у ТС кмк не исчерпан.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39673019
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
servitH5N1и какой смысл платить за энтерпрайз редакцию, где все перечисленное не кастрированно, сумашедшие деньги ?ТС ничего не говорил про энтерпрайз редакцию и сумасшедшие деньги.
говорил
Max_11111разнести данные по нескольким серверам, т.к. мощности 1 сервера явно не достаточно

несколько серверов = несколько ентерпрайз лицензий = глупое направление инвестиций
servitH5N1стандартный подход - ELK стек на хадупе.Для новых проектов - возможно, но не для уже существующих/унаследованных. Прежде чем принимать решение о переходе на совершенно что-то новое для себя и/или команды, следует выжать всё возможное из текущего. Пока же потенциал продукта у ТС кмк не исчерпан.
при росте 5 млн строк в год и уже не шевелящемся сервере нет смысла выжимать доли процента из заведомо не подходящего решения. особенно на фоне того что через дорогу миллионами проверенное решение, запросто масштабируется из коробки и за просто так.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39673108
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1при росте 5 млн строк в годВообще-то в сутки , а в год - 2 миллиарда , но не суть.

То, что подходит миллионам, вполне может не подходить мне, Вам, ТС .., иначе не было бы этого зоопарка многообразия , а все бы использовали один проверенный, бесплатный (ещё бы найти бесплатное железо и бесплатных специалистов), быстрый, богатый фичами, простой, масштабируемый, ..

PS: а про то, как выбирают СУБД в современной действительности, можно почитать в моём блоге.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39673191
tip78
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 ярда строк в год это 365 строк в агрегированном состоянии
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39673470
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
servitПрежде чем принимать решение о переходе на совершенно что-то новое для себя и/или команды, следует выжать всё возможное из текущего. Пока же потенциал продукта у ТС кмк не исчерпан.
SQL можно оптимизировать под конкретные запросы: накинуть индекс чтобы отобрать как можно меньше данных и дальше из вывести или обработать. Обработку миллиардов строк в одном запросе SQL не потянет. А мы хотим именно так и делать - в идеале анализировать данные за весь период и искать скрытые закономерности и исключения (например ошибки в бизнес-процессах или махинации)
servitPS: а про то, как выбирают СУБД в современной действительности, можно почитать в моём блоге.
Похоже что так мы и выбрали ClickHouse и теперь сталкиваемся с теми-же проблемами, которые указаны на слайдах.

Значит пока 3 варианта:
HDFS + Spark (у нас есть питонисты, поэтому данное решение очень интересно)
HDFS + ELK (зоопарк технологий, но почему бы не попробовать)
Cassandra + Spark
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39673496
servit
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111Обработку миллиардов строк в одном запросе SQL не потянет. А мы хотим именно так и делать - в идеале анализировать данные за весь период и искать скрытые закономерности и исключения (например ошибки в бизнес-процессах или махинации)Для аналитики всё же используют не SQL, а MDX. И да, в одном MDX-запросе могут быть задействованы (не напрямую, а опосредованно) миллиарды, триллионы строк и это нормально.
Есть СУБД с изначально многомерной моделью хранения данных, которые прекрасно сопрягаются как с SQL, так и MDX и даже объектами.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39673510
Max_11111
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
servitДля аналитики всё же используют не SQL, а MDX. И да, в одном MDX-запросе могут быть задействованы (не напрямую, а опосредованно) миллиарды, триллионы строк и это нормально.
Есть СУБД с изначально многомерной моделью хранения данных, которые прекрасно сопрягаются как с SQL, так и MDX и даже объектами.
OLAP тут явно не подойдёт. Мне нужны не агрегаты, в цепочки последовательностей
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39673579
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Max_11111Значит пока 3 варианта:
HDFS + Spark (у нас есть питонисты, поэтому данное решение очень интересно)
HDFS + ELK (зоопарк технологий, но почему бы не попробовать)
Cassandra + Spark

еще вариант hdfs + spark парсят и пишут результат в elastik + kibana
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39674136
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Выкинуть уникальные текстовые комментарии в отдельную таблицу(они же не нужны для аналитики?), на оставшемся блоке сделать колоночный и обычные индексы (раз уж вы ищете последовательности). Положить все это дело на быстрый массив.

Если такое относитель дешевое решение не устроит - пробовать что-то иное.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39680418
Фотография Журавлев Денис
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
у меня в одной из систем в CH, милиард событий в день, правда полей конечно в таблице 200+, и серверов в кластере 20, естественно что запрос который обрабатывает 100ТБ сжатых данных, колупается 2-5 мин.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39680420
Фотография Журавлев Денис
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну и CH совсем не приспособлен работать по одному документу, там выборка по первичному ключу несуществующей записи легко может выполняться 30 секунд, пока все ноды сходят на диск и проверят что нету такого. С другой стороны за теже 30 секунд, можно съагрегировать сотни миллиардов за три месяца.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39680494
Фотография полудух
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Журавлев Денису меня в одной из систем в CH, милиард событий в день, правда полей конечно в таблице 200+, и серверов в кластере 20, естественно что запрос который обрабатывает 100ТБ сжатых данных, колупается 2-5 мин.
это вопрос к архитектуре
БД это же не свалка данных, в первую очередь это быстрый доступ к отформатированным данным
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39680530
alex55555
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
полудухэто вопрос к архитектуре
Вопрос вообще непонятно к чему. Бизнес же устраивает, так чего паренёк нервничает? А если бы бизнес не устраивало, он бы здесь не делился впечатлениями, а усердно пахал бы ради исправления ситуации.
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39681724
brokena
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ClickHouse для этого и придумывался
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39681726
brokena
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Надо в Яндексе спросить, почему у них не тормозит
...
Рейтинг: 0 / 0
Посоветуйте систему для хранения логов
    #39681916
alex55555
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
brokenaНадо в Яндексе спросить, почему у них не тормозит
Потому что голову иногда включают.
...
Рейтинг: 0 / 0
25 сообщений из 29, страница 1 из 2
Форумы / NoSQL, Big Data [игнор отключен] [закрыт для гостей] / Посоветуйте систему для хранения логов
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]