|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Кто-нибудь делал такое? Куб SSAS, а источник Clickhouse (CH). Clickhouse - sql запросы работает отлично, а MSSQL выполняет запросы долго Код: sql 1. 2.
112 000 000 строк в MSSQL выполняется 52 секунды (колоночные индексы) в CH ~ 1 секунду Так как куб используют в excel и power BI, а с базой данных 99% пользователей не работают на SQL/MDX, куб самое лучшее решение, для всех в одном месте. Проблема с MSSQL, дополнительные вычисления делаются долго, а вычисления на CH быстро. Я не хочу поддерживать MSSQL только для OLAP, а убрать DWH MSSQL и заменить его на CH ... |
|||
:
Нравится:
Не нравится:
|
|||
08.04.2020, 10:39 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Focha, Я рекомендую Вам взвесить все за и против такого решения. Click House насколько мне известно плохо join-ит большие таблицы, он может соединять большую с маленькой, но большую с большой у него проблемы. COUNT SUM AVG MAX можно пробросить на прямую в БД использую ROLAP. Но вот c DISTINCT COUNT могут быть ограничения. Есть опыт в разработки кубов от Вертики, но вот чтобы от ClickHouse я не слышал. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.04.2020, 13:00 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Focha, На Вертике Код: sql 1.
выполнился за 0.7 сек на 676 лямах. Но я подозреваю, что он просто счетчик строк нашел. Код: sql 1. 2. 3.
тоже почти мгновенно -- даты за 10 лет на 676 лямах Код: sql 1. 2. 3.
30 секунд Код: sql 1. 2. 3.
27 секунд ... |
|||
:
Нравится:
Не нравится:
|
|||
08.04.2020, 13:13 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
a_voronin Focha, На Вертике Код: sql 1.
выполнился за 0.7 сек на 676 лямах. Но я подозреваю, что он просто счетчик строк нашел. Код: sql 1. 2. 3.
тоже почти мгновенно -- даты за 10 лет на 676 лямах Код: sql 1. 2. 3.
30 секунд Код: sql 1. 2. 3.
27 секунд Azure Synapse 1000DWU. ~500 строк Код: sql 1.
Мгновенно Код: sql 1. 2. 3.
2с Код: sql 1. 2. 3.
3с Код: sql 1. 2. 3.
30с ... |
|||
:
Нравится:
Не нравится:
|
|||
08.04.2020, 14:21 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
T87, 500 млн строк конечно же ... |
|||
:
Нравится:
Не нравится:
|
|||
08.04.2020, 14:22 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
T87, А сколько центов стоит выполнение каждого из этих запросов? И я оговорюсь, что в моем случае это 1-серверный вариант бесплатной Вертики на тухлом железе. Учитывая сравнение, в Ажуре вот это должно за 3-5 сек отдаваться. Код: sql 1. 2. 3.
... |
|||
:
Нравится:
Не нравится:
|
|||
08.04.2020, 14:52 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Focha 112 000 000 строк в MSSQL выполняется 52 секунды (колоночные индексы) в CH ~ 1 секунду Проблема с MSSQL, дополнительные вычисления делаются долго, а вычисления на CH быстро. Я не хочу поддерживать MSSQL только для OLAP, а убрать DWH MSSQL и заменить его на CH Вместо того, чтобы найти и поправить проблему вы хотите поменять СУБД хранилища, что будет стоить компании несколько миллионов рублей, если ХД более-менее большая А после нужно будет поддерживать и CH, в требованиях к вакансии появится CH, в целом стоимость поддержки чуствительно подрастет. Не говорите начальству о вашей идее, иначе быть беде ) Ну и select count(*) такой себе запрос для теста... Пользователи и кубы его явно не используют. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.04.2020, 15:24 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
a_voronin T87, А сколько центов стоит выполнение каждого из этих запросов? И я оговорюсь, что в моем случае это 1-серверный вариант бесплатной Вертики на тухлом железе. Учитывая сравнение, в Ажуре вот это должно за 3-5 сек отдаваться. Код: sql 1. 2. 3.
0,0042$ за секунду. По кейсу с дистинктами можно ускорить. Таблица не секционирована и распределение дефолтное. Это Staging. Как положу в DWH смогу пересчитать. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.04.2020, 18:38 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
a_voronin T87, А сколько центов стоит выполнение каждого из этих запросов? И я оговорюсь, что в моем случае это 1-серверный вариант бесплатной Вертики на тухлом железе. Учитывая сравнение, в Ажуре вот это должно за 3-5 сек отдаваться. вот тут сравнивают вертику и кликхаус на миллиарде строк https://tech.marksblogg.com/benchmarks.html на одинаковых железках кликхаус в 5-10 раз быстрее вертики. На конкретных запросах из кейсов. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 00:16 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Критик Вместо того, чтобы найти и поправить проблему вы хотите поменять СУБД хранилища, что будет стоить компании несколько миллионов рублей, если ХД более-менее большая если ХД более-менее большая и растёт, то на лицензии MS денег не хватит. Это стандартная тема ухода с MS на хранилищах: "У нас было всё на MS, всё работало хорошо, но данных становилось больше, и стока денег на лицензии не было" ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 00:21 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Focha Так как куб С CH и ими подобными системами не используют кубы. Кубы не нужны. И весь ROLAP/MOLAP/MDX существует только в мире MS. У других без этого всё прекрасно работает. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 00:23 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Бумбараш, Немножко есть, но автор таких вопросов не поднимает ) Ну и довольно странной выглядит ситуация - когда объем данных, который льется ежедневно, насолько велик, что нужны новые лицензии (сотни Гб в день?), и при этом у компании нет денег... Я все же предположу, что тут скорее ХД разрабатывали криворучки, или изначально была выбрана в корне неверная архитектура. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 00:31 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Бумбараш С CH и ими подобными системами не используют кубы. А что там используют? Текущая ситуация понятна - куча народу крутит сводные таблицы. А в случае с CH как им работать? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 00:33 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Критик Бумбараш С CH и ими подобными системами не используют кубы. А что там используют? Текущая ситуация понятна - куча народу крутит сводные таблицы. А в случае с CH как им работать? витрины просто, потом BI Если тут на кубы миллион всего жостко завязано, тогда от них избавиться не получится/будет невыгодно по ресурсам. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 00:46 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Критик Ну и довольно странной выглядит ситуация - когда объем данных, который льется ежедневно, насолько велик, что нужны новые лицензии (сотни Гб в день?), и при этом у компании нет денег... Я все же предположу, что тут скорее ХД разрабатывали криворучки, или изначально была выбрана в корне неверная архитектура. Ну так, например, в одноклассниках было. Не думаю, что там была проблема в кривых руках. Если количество данных растёт в разы, то и траты на лицензии растёт в разы. А прибыль у компании, как понятно, в разы расти не может. Ну и даже если у тебя есть деньги на лицензии. Если ты в ситуации, что ты платил за них X, а должен платить 10X, и при этом есть вариант сделать так, чтобы не платить за лицензии, мало кто сделает выбор в пользу платить 10X. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 00:49 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Бумбараш, А я не спорю, что clickhouse круче на прямом скане. С оговоркой, что в вертике, скорее всего, не удосужились проекции правильные сделать. Но вот когда дело дойдет до JOINов между большими таблицами (а это без это в DWH никак), вот тут clickhouse просядет. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 07:57 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Критик Ну и довольно странной выглядит ситуация - когда объем данных, который льется ежедневно, насолько велик, что нужны новые лицензии (сотни Гб в день?), и при этом у компании нет денег... Я все же предположу, что тут скорее ХД разрабатывали криворучки, или изначально была выбрана в корне неверная архитектура. ну так обычно растет не ежедневный поток, а скачками. типа допили интеграцию с еще несколькькими системами, купили конкурента, выпилили какое-то локальное dwh для одного из регионов. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 08:17 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
H5N1 Критик Ну и довольно странной выглядит ситуация - когда объем данных, который льется ежедневно, насолько велик, что нужны новые лицензии (сотни Гб в день?), и при этом у компании нет денег... Я все же предположу, что тут скорее ХД разрабатывали криворучки, или изначально была выбрана в корне неверная архитектура. ну так обычно растет не ежедневный поток, а скачками. типа допили интеграцию с еще несколькькими системами, купили конкурента, выпилили какое-то локальное dwh для одного из регионов. А ходить за примерами неправильной архитектуры далеко не надо. Вот по ссылке приведенной выше https://tech.marksblogg.com/benchmarks.html идем и находим. Большинство ключей varchar, даты не отконвертированы в int. Да и дизайнить таблицу под вертику человек явно не умеет. Этим и объясняется то, что Вертика якобы хуже. Можно было и не делать даже суперахитектуру, а просто дизайн таблицы правильный сделать. Код: sql 1. 2.
CREATE TABLE trips ( trip_id INTEGER, vendor_id VARCHAR(3), pickup_datetime DATETIME, dropoff_datetime DATETIME, store_and_fwd_flag VARCHAR(1), rate_code_id SMALLINT, pickup_longitude DECIMAL(18,14), pickup_latitude DECIMAL(18,14), dropoff_longitude DECIMAL(18,14), dropoff_latitude DECIMAL(18,14), passenger_count SMALLINT, trip_distance DECIMAL(6,3), fare_amount DECIMAL(6,2), extra DECIMAL(6,2), mta_tax DECIMAL(6,2), tip_amount DECIMAL(6,2), tolls_amount DECIMAL(6,2), ehail_fee DECIMAL(6,2), improvement_surcharge DECIMAL(6,2), total_amount DECIMAL(6,2), payment_type VARCHAR(3), trip_type SMALLINT, pickup VARCHAR(50), dropoff VARCHAR(50), cab_type VARCHAR(6), precipitation SMALLINT, snow_depth SMALLINT, snowfall SMALLINT, max_temperature SMALLINT, min_temperature SMALLINT, average_wind_speed SMALLINT, pickup_nyct2010_gid SMALLINT, pickup_ctlabel VARCHAR(10), pickup_borocode SMALLINT, pickup_boroname VARCHAR(13), pickup_ct2010 VARCHAR(6), pickup_boroct2010 VARCHAR(7), pickup_cdeligibil VARCHAR(1), pickup_ntacode VARCHAR(4), pickup_ntaname VARCHAR(56), pickup_puma VARCHAR(4), dropoff_nyct2010_gid SMALLINT, dropoff_ctlabel VARCHAR(10), dropoff_borocode SMALLINT, dropoff_boroname VARCHAR(13), dropoff_ct2010 VARCHAR(6), dropoff_boroct2010 VARCHAR(7), dropoff_cdeligibil VARCHAR(1), dropoff_ntacode VARCHAR(4), dropoff_ntaname VARCHAR(56), dropoff_puma VARCHAR(4) ) ORDER BY pickup_datetime, dropoff_datetime; ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 08:33 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Ребят у меня конкретный вопрос. Куб SSAS, а источник Clickhouse (CH). Есть дополнительные расчеты в CH, который считаются быстро, а в MSSQL долго. Есть разница когда считается 1 секунду и 3 минуты. Тут дело не в архитектуре, а в скорости расчетов. Таблица одна большая ~200 000 000 строк, пример который я приводил, это уже результат Код: sql 1. 2.
Запрос там сложный, его оптимизацией заниматься на MSSQL не имеет смысла, так как не возможно получить скорость расчета в 1 сек. Вы сейчас начнете предлагать варианты как оптимизировать данный расчет, но таких расчетов больше одного и они на CH выполняются ~1сек, для этого CH и используется. Я знаю, что OLAP любит только MSSQL, но может кто-то пытался изменить мнение OLAP? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 12:32 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Focha Тут дело не в архитектуре, а в скорости расчетов. Я знаю, что OLAP любит только MSSQL, но может кто-то пытался изменить мнение OLAP? Тут дело в первую очередь в архитектуре, а не в выборе БД. "Запрос там сложный, его оптимизацией заниматься на MSSQL не имеет смысла," -- есть смысл выкинуть весь этот запрос к черту и сделать то, что Ральф Кимбалл говорит в книге https://www.kimballgroup.com/data-warehouse-business-intelligence-resources/books/data-warehouse-dw-lifecycle-toolkit/ . Глава"Dimensional Modeling" https://en.wikipedia.org/wiki/Dimensional_modeling "Я знаю, что OLAP любит только MSSQL" -- я чуть под стол со смеху не упал от такого заявления, если участь что я имею опыт создания SSAS кубов от источников на Вертике, Oracle и MSSQL. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 12:43 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Focha, спроси в телеге в чате по кликхаусу t.me/clickhouse_ru ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 13:07 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Есть три вопроса, которые надо профильтровать, чтобы сделать куб от ClickHouse 1) Наличие драйвера от SSAS для ClickHouse 2) Cartridge File , который правильно транслирует запрос из SSAS в ClickHouse в MOLAP или ROLAP , что вы собрались делать 3) Возможность проброса DISTINCT COUNT , если вы собираетесь делать его как ROLAP Кстати select count(*) from Остатки в качестве MDX от MOLAP тоже будет работать за < 1 сек. Отсюда вопрос, что за проблему вы пытается на самом деле решить? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 13:37 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
@Focha, а подскажите плз у вас MOLAP в кубе ? MDM (или табуляр ) ? и что такое Проблема с MSSQL, дополнительные вычисления делаются долго, загрузка в ms-sql происходит долго или билд куба на основе вьюх MS-SQL ? или куб сделан на основе вьюх (запросов) к источнику в Click мне просто хочется понять что все обсуждают переход с MOLAP на ROLAP с запрсами в Click ? @a_voronin а как с правами в кубе в Rolap ? там ничего не меняется если права выдалваись через mdx Exists на димы по ролям (или скажем тупо выставлялись галочками ) ? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.04.2020, 18:21 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Гулин Федор @a_voronin а как с правами в кубе в Rolap ? там ничего не меняется если права выдалваись через mdx Exists на димы по ролям (или скажем тупо выставлялись галочками ) ? а почему вдруг с правами что-то должно поменяться? MOLAP от ROLAP отличается тем, что у первого запросы запускаются во время процессинга, а второй просто транслирует MDX в запрос. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.04.2020, 07:46 |
|
OLAP(SSAS) & DWH(Clickhouse)
|
|||
---|---|---|---|
#18+
Гулин Федор мне просто хочется понять что все обсуждают переход с MOLAP на ROLAP с запрсами в Click ? ТС решил сделать куб от клика, но четкого пояснения не дал. Предполагаю, что он некоторые группы мер хочет перевести в ROLAP. Отсюда вопрос, возможно ли это. Я лично не слышал, чтобы от Click делали кубы. Надо просто пробовать. Вообще у ТС не такой объем данных, чтобы иметь проблемы с производительностью. Потому что MOLAP от правильной модели миллиарды строк переваривает. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.04.2020, 07:52 |
|
|
start [/forum/topic.php?fid=49&msg=39945161&tid=1857146]: |
0ms |
get settings: |
12ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
37ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
62ms |
get tp. blocked users: |
1ms |
others: | 257ms |
total: | 407ms |
0 / 0 |