|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Необходимо хранить логи по всем действиям со всеми документами. Объём данных : порядка 5 млн записей в сутки, а это около 2 млрд записей в год. Структура данных: дата-время записи + идентификатор документа + всё остальное (сейчас порядка 20 полей, но список пересмотрим, скорее всего увеличим) Сейчас это всё хранится в MS SQL. Что не устраивает: из-за огромного объёма данных сервер их еле крутит из-за огромного объёма данных запросы работают только по первичному ключу таблицы (документ), а хотелось бы проводить какую-либо аналитику по дате, возможно по другим полям Что хотелось бы: разнести данные по нескольким серверам, т.к. мощности 1 сервера явно не достаточно делать выборки 2 типов: получать логи по 1 документу (индекс - документ) и получать выборку для анализа за период (индекс - дата) Пробовали использовать Yandex ClickHouse - по началу устраивал, но с данными за пол года начал тормозить. Возможно не так настроили - сейчас перебираем варианты конфигураций. Также есть проблема с получением данных, на которую на форумах не могут ответить, а в документации не описываются такие детали. В общем сейчас стоим перед выбором: пытаться дальше тратить силы и разбираться с системой, либо попробовать другую. Следующий кандидат на тестирование - Cassandra (+ spark поверх неё). Но чтобы создать 2 индекса необходимо будет, фактически, иметь 2 копии данных - каждую под свой индекс, что сильно скажется на занимаемом месте. Возможно есть более подходящие системы. Хотелось бы услышать мнения о том, какая система, на ваш взгляд, лучше подойдёт под нашу задачу? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 05:47 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Max_11111Необходимо хранить логи по всем действиям со всеми документами. Объём данных : порядка 5 млн записей в сутки, а это около 2 млрд записей в год. ... Хотелось бы услышать мнения о том, какая система, на ваш взгляд, лучше подойдёт под нашу задачу? hdfs+spark. Индекс- предагрегация с сохранением по нужному ключу. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 06:51 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Alexey TominMax_11111Необходимо хранить логи по всем действиям со всеми документами. Объём данных : порядка 5 млн записей в сутки, а это около 2 млрд записей в год. ... Хотелось бы услышать мнения о том, какая система, на ваш взгляд, лучше подойдёт под нашу задачу? hdfs+spark. Индекс- предагрегация с сохранением по нужному ключу. Пытался как-то поднять hadoop самостоятельно по мануалам - так и не осилил эти костыли. Есть готовые бесплатные сборки, желательно уже с Hive? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 07:40 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Max_11111Alexey Tominпропущено... hdfs+spark. Индекс- предагрегация с сохранением по нужному ключу. Пытался как-то поднять hadoop самостоятельно по мануалам - так и не осилил эти костыли. Есть готовые бесплатные сборки, желательно уже с Hive? Cloudera же ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 07:46 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Alexey Tomin, Спасибо, рассмотрим этот вариант ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 08:25 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Max_11111 , Может быть пока сосредоточиться на оптимизации/донастройке MSSQL? И что говорят на соседнем форуме относительно вышеозвученных проблем/пожеланий? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 09:06 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
servit Max_11111 , Может быть пока сосредоточиться на оптимизации/донастройке MSSQL? И что говорят на соседнем форуме относительно вышеозвученных проблем/пожеланий? Думаю с таким объёмом данных ресурс MS SQL уже исчерпан. Наличием дополнительного индекса проблему не решить, можно попробовать колоночное хранение, но мешаются текстовые столбцы с произвольными комментариями. К тому-же очень хочется проводить какую-либо аналитику (какую, честно, сами ещё не решили. для того лог и собирается чтобы потом что-нибудь поанализировать), что не получится сделать на огромной таблице на одном сервере в MS SQL ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 09:30 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Max_11111Думаю с таким объёмом данных ресурс MS SQL уже исчерпан. Напрасно . И это уже в те далёкие времена.. Max_11111что не получится сделать на огромной таблице на одном сервере в MS SQLА Вы не делайте аналитику на одной "огромной таблице на одном сервере в MS SQL". Шардинг, партицирование, репликация, зеркалирование, что-то ещё - не? (Я не специалист по MSSQL, но почему-то уверен, что и там это есть). PS: обратитесь всё-таки к специалистам. Даже 100лярдов по нынешним меркам - не проблема, главное - правильно готовить. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 09:57 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
servitШардинг, партицирование, репликация, зеркалирование, что-то ещё - не? (Я не специалист по MSSQL, но почему-то уверен, что и там это есть). и какой смысл платить за энтерпрайз редакцию, где все перечисленное не кастрированно, сумашедшие деньги ? стандартный подход - ELK стек на хадупе. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 10:45 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
H5N1и какой смысл платить за энтерпрайз редакцию, где все перечисленное не кастрированно, сумашедшие деньги ?ТС ничего не говорил про энтерпрайз редакцию и сумасшедшие деньги. H5N1стандартный подход - ELK стек на хадупе.Для новых проектов - возможно, но не для уже существующих/унаследованных. Прежде чем принимать решение о переходе на совершенно что-то новое для себя и/или команды, следует выжать всё возможное из текущего. Пока же потенциал продукта у ТС кмк не исчерпан. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 10:56 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
servitH5N1и какой смысл платить за энтерпрайз редакцию, где все перечисленное не кастрированно, сумашедшие деньги ?ТС ничего не говорил про энтерпрайз редакцию и сумасшедшие деньги. говорил Max_11111разнести данные по нескольким серверам, т.к. мощности 1 сервера явно не достаточно несколько серверов = несколько ентерпрайз лицензий = глупое направление инвестиций servitH5N1стандартный подход - ELK стек на хадупе.Для новых проектов - возможно, но не для уже существующих/унаследованных. Прежде чем принимать решение о переходе на совершенно что-то новое для себя и/или команды, следует выжать всё возможное из текущего. Пока же потенциал продукта у ТС кмк не исчерпан. при росте 5 млн строк в год и уже не шевелящемся сервере нет смысла выжимать доли процента из заведомо не подходящего решения. особенно на фоне того что через дорогу миллионами проверенное решение, запросто масштабируется из коробки и за просто так. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 11:51 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
H5N1при росте 5 млн строк в годВообще-то в сутки , а в год - 2 миллиарда , но не суть. То, что подходит миллионам, вполне может не подходить мне, Вам, ТС .., иначе не было бы этого зоопарка многообразия , а все бы использовали один проверенный, бесплатный (ещё бы найти бесплатное железо и бесплатных специалистов), быстрый, богатый фичами, простой, масштабируемый, .. PS: а про то, как выбирают СУБД в современной действительности, можно почитать в моём блоге. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 13:25 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
2 ярда строк в год это 365 строк в агрегированном состоянии ... |
|||
:
Нравится:
Не нравится:
|
|||
12.07.2018, 15:26 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
servitПрежде чем принимать решение о переходе на совершенно что-то новое для себя и/или команды, следует выжать всё возможное из текущего. Пока же потенциал продукта у ТС кмк не исчерпан. SQL можно оптимизировать под конкретные запросы: накинуть индекс чтобы отобрать как можно меньше данных и дальше из вывести или обработать. Обработку миллиардов строк в одном запросе SQL не потянет. А мы хотим именно так и делать - в идеале анализировать данные за весь период и искать скрытые закономерности и исключения (например ошибки в бизнес-процессах или махинации) servitPS: а про то, как выбирают СУБД в современной действительности, можно почитать в моём блоге. Похоже что так мы и выбрали ClickHouse и теперь сталкиваемся с теми-же проблемами, которые указаны на слайдах. Значит пока 3 варианта: HDFS + Spark (у нас есть питонисты, поэтому данное решение очень интересно) HDFS + ELK (зоопарк технологий, но почему бы не попробовать) Cassandra + Spark ... |
|||
:
Нравится:
Не нравится:
|
|||
13.07.2018, 04:51 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Max_11111Обработку миллиардов строк в одном запросе SQL не потянет. А мы хотим именно так и делать - в идеале анализировать данные за весь период и искать скрытые закономерности и исключения (например ошибки в бизнес-процессах или махинации)Для аналитики всё же используют не SQL, а MDX. И да, в одном MDX-запросе могут быть задействованы (не напрямую, а опосредованно) миллиарды, триллионы строк и это нормально. Есть СУБД с изначально многомерной моделью хранения данных, которые прекрасно сопрягаются как с SQL, так и MDX и даже объектами. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.07.2018, 08:16 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
servitДля аналитики всё же используют не SQL, а MDX. И да, в одном MDX-запросе могут быть задействованы (не напрямую, а опосредованно) миллиарды, триллионы строк и это нормально. Есть СУБД с изначально многомерной моделью хранения данных, которые прекрасно сопрягаются как с SQL, так и MDX и даже объектами. OLAP тут явно не подойдёт. Мне нужны не агрегаты, в цепочки последовательностей ... |
|||
:
Нравится:
Не нравится:
|
|||
13.07.2018, 08:57 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Max_11111Значит пока 3 варианта: HDFS + Spark (у нас есть питонисты, поэтому данное решение очень интересно) HDFS + ELK (зоопарк технологий, но почему бы не попробовать) Cassandra + Spark еще вариант hdfs + spark парсят и пишут результат в elastik + kibana ... |
|||
:
Нравится:
Не нравится:
|
|||
13.07.2018, 11:12 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Выкинуть уникальные текстовые комментарии в отдельную таблицу(они же не нужны для аналитики?), на оставшемся блоке сделать колоночный и обычные индексы (раз уж вы ищете последовательности). Положить все это дело на быстрый массив. Если такое относитель дешевое решение не устроит - пробовать что-то иное. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.07.2018, 13:45 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
у меня в одной из систем в CH, милиард событий в день, правда полей конечно в таблице 200+, и серверов в кластере 20, естественно что запрос который обрабатывает 100ТБ сжатых данных, колупается 2-5 мин. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.07.2018, 21:23 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Ну и CH совсем не приспособлен работать по одному документу, там выборка по первичному ключу несуществующей записи легко может выполняться 30 секунд, пока все ноды сходят на диск и проверят что нету такого. С другой стороны за теже 30 секунд, можно съагрегировать сотни миллиардов за три месяца. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.07.2018, 21:34 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Журавлев Денису меня в одной из систем в CH, милиард событий в день, правда полей конечно в таблице 200+, и серверов в кластере 20, естественно что запрос который обрабатывает 100ТБ сжатых данных, колупается 2-5 мин. это вопрос к архитектуре БД это же не свалка данных, в первую очередь это быстрый доступ к отформатированным данным ... |
|||
:
Нравится:
Не нравится:
|
|||
28.07.2018, 04:44 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
полудухэто вопрос к архитектуре Вопрос вообще непонятно к чему. Бизнес же устраивает, так чего паренёк нервничает? А если бы бизнес не устраивало, он бы здесь не делился впечатлениями, а усердно пахал бы ради исправления ситуации. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.07.2018, 13:46 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
ClickHouse для этого и придумывался ... |
|||
:
Нравится:
Не нравится:
|
|||
31.07.2018, 18:44 |
|
Посоветуйте систему для хранения логов
|
|||
---|---|---|---|
#18+
Надо в Яндексе спросить, почему у них не тормозит ... |
|||
:
Нравится:
Не нравится:
|
|||
31.07.2018, 18:45 |
|
|
start [/forum/topic.php?fid=48&fpage=3&tid=1856615]: |
0ms |
get settings: |
11ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
43ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
68ms |
get tp. blocked users: |
2ms |
others: | 13ms |
total: | 176ms |
0 / 0 |