powered by simpleCommunicator - 2.0.44     © 2025 Programmizd 02
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / OLAP(SSAS) & DWH(Clickhouse)
25 сообщений из 38, страница 1 из 2
OLAP(SSAS) & DWH(Clickhouse)
    #39944747
Фотография Focha
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кто-нибудь делал такое?
Куб SSAS, а источник Clickhouse (CH).
Clickhouse - sql запросы работает отлично, а MSSQL выполняет запросы долго
Код: sql
1.
2.
select count(*)
from Остатки 


112 000 000 строк в MSSQL выполняется 52 секунды (колоночные индексы)
в CH ~ 1 секунду

Так как куб используют в excel и power BI, а с базой данных 99% пользователей не работают на SQL/MDX, куб самое лучшее решение, для всех в одном месте.

Проблема с MSSQL, дополнительные вычисления делаются долго, а вычисления на CH быстро.
Я не хочу поддерживать MSSQL только для OLAP, а убрать DWH MSSQL и заменить его на CH
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39944820
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Focha,

Я рекомендую Вам взвесить все за и против такого решения. Click House насколько мне известно плохо join-ит большие таблицы, он может соединять большую с маленькой, но большую с большой у него проблемы.

COUNT SUM AVG MAX можно пробросить на прямую в БД использую ROLAP. Но вот c DISTINCT COUNT могут быть ограничения.

Есть опыт в разработки кубов от Вертики, но вот чтобы от ClickHouse я не слышал.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39944832
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Focha,

На Вертике
Код: sql
1.
SELECT COUNT(*) FROM X; 



выполнился за 0.7 сек на 676 лямах. Но я подозреваю, что он просто счетчик строк нашел.

Код: sql
1.
2.
3.
SELECT COUNT(*),  "Date" 
FROM X
GROUP BY DAte;



тоже почти мгновенно -- даты за 10 лет на 676 лямах


Код: sql
1.
2.
3.
SELECT COUNT(*), SUM(Amount), SUM(Qty), "Date" 
FROM X
GROUP BY DAte;



30 секунд

Код: sql
1.
2.
3.
SELECT COUNT(*), COUNT(DISTINCT Товары),COUNT(DISTINCT Магазины), "Date" 
FROM X
GROUP BY DAte;


27 секунд
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39944858
T87
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
Focha,

На Вертике
Код: sql
1.
SELECT COUNT(*) FROM X; 



выполнился за 0.7 сек на 676 лямах. Но я подозреваю, что он просто счетчик строк нашел.

Код: sql
1.
2.
3.
SELECT COUNT(*),  "Date" 
FROM X
GROUP BY DAte;



тоже почти мгновенно -- даты за 10 лет на 676 лямах


Код: sql
1.
2.
3.
SELECT COUNT(*), SUM(Amount), SUM(Qty), "Date" 
FROM X
GROUP BY DAte;



30 секунд

Код: sql
1.
2.
3.
SELECT COUNT(*), COUNT(DISTINCT Товары),COUNT(DISTINCT Магазины), "Date" 
FROM X
GROUP BY DAte;


27 секунд



Azure Synapse 1000DWU. ~500 строк

Код: sql
1.
SELECT COUNT(*) FROM X; 


Мгновенно

Код: sql
1.
2.
3.
SELECT COUNT(*),  "Date" 
FROM X
GROUP BY DAte;





Код: sql
1.
2.
3.
SELECT COUNT(*), SUM(Amount), SUM(Qty), "Date" 
FROM X
GROUP BY DAte;




Код: sql
1.
2.
3.
SELECT COUNT(*), COUNT(DISTINCT Товары),COUNT(DISTINCT Магазины), "Date" 
FROM X
GROUP BY DAte;



30с
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39944861
T87
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
T87,

500 млн строк конечно же
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39944873
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
T87,

А сколько центов стоит выполнение каждого из этих запросов?

И я оговорюсь, что в моем случае это 1-серверный вариант бесплатной Вертики на тухлом железе. Учитывая сравнение, в Ажуре вот это должно за 3-5 сек отдаваться.

Код: sql
1.
2.
3.
SELECT COUNT(*), COUNT(DISTINCT Товары),COUNT(DISTINCT Магазины), "Date" 
FROM X
GROUP BY DAte;
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39944896
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Focha
112 000 000 строк в MSSQL выполняется 52 секунды (колоночные индексы)
в CH ~ 1 секунду

Проблема с MSSQL, дополнительные вычисления делаются долго, а вычисления на CH быстро.
Я не хочу поддерживать MSSQL только для OLAP, а убрать DWH MSSQL и заменить его на CH


Вместо того, чтобы найти и поправить проблему вы хотите поменять СУБД хранилища, что будет стоить компании несколько миллионов рублей, если ХД более-менее большая

А после нужно будет поддерживать и CH, в требованиях к вакансии появится CH, в целом стоимость поддержки чуствительно подрастет. Не говорите начальству о вашей идее, иначе быть беде )

Ну и select count(*) такой себе запрос для теста... Пользователи и кубы его явно не используют.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39944992
T87
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
T87,

А сколько центов стоит выполнение каждого из этих запросов?

И я оговорюсь, что в моем случае это 1-серверный вариант бесплатной Вертики на тухлом железе. Учитывая сравнение, в Ажуре вот это должно за 3-5 сек отдаваться.

Код: sql
1.
2.
3.
SELECT COUNT(*), COUNT(DISTINCT Товары),COUNT(DISTINCT Магазины), "Date" 
FROM X
GROUP BY DAte;



0,0042‬$ за секунду.
По кейсу с дистинктами можно ускорить. Таблица не секционирована и распределение дефолтное. Это Staging. Как положу в DWH смогу пересчитать.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945134
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
T87,

А сколько центов стоит выполнение каждого из этих запросов?

И я оговорюсь, что в моем случае это 1-серверный вариант бесплатной Вертики на тухлом железе. Учитывая сравнение, в Ажуре вот это должно за 3-5 сек отдаваться.



вот тут сравнивают вертику и кликхаус на миллиарде строк

https://tech.marksblogg.com/benchmarks.html

на одинаковых железках кликхаус в 5-10 раз быстрее вертики. На конкретных запросах из кейсов.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945135
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик


Вместо того, чтобы найти и поправить проблему вы хотите поменять СУБД хранилища, что будет стоить компании несколько миллионов рублей, если ХД более-менее большая


если ХД более-менее большая и растёт, то на лицензии MS денег не хватит.
Это стандартная тема ухода с MS на хранилищах: "У нас было всё на MS, всё работало хорошо, но данных становилось больше, и стока денег на лицензии не было"
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945136
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Focha

Так как куб

С CH и ими подобными системами не используют кубы.

Кубы не нужны.

И весь ROLAP/MOLAP/MDX существует только в мире MS.

У других без этого всё прекрасно работает.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945137
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш,

Немножко есть, но автор таких вопросов не поднимает )

Ну и довольно странной выглядит ситуация - когда объем данных, который льется ежедневно, насолько велик, что нужны новые лицензии (сотни Гб в день?), и при этом у компании нет денег... Я все же предположу, что тут скорее ХД разрабатывали криворучки, или изначально была выбрана в корне неверная архитектура.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945139
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш

С CH и ими подобными системами не используют кубы.


А что там используют? Текущая ситуация понятна - куча народу крутит сводные таблицы. А в случае с CH как им работать?
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945141
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик
Бумбараш

С CH и ими подобными системами не используют кубы.


А что там используют? Текущая ситуация понятна - куча народу крутит сводные таблицы. А в случае с CH как им работать?

витрины просто, потом BI

Если тут на кубы миллион всего жостко завязано, тогда от них избавиться не получится/будет невыгодно по ресурсам.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945143
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик

Ну и довольно странной выглядит ситуация - когда объем данных, который льется ежедневно, насолько велик, что нужны новые лицензии (сотни Гб в день?), и при этом у компании нет денег... Я все же предположу, что тут скорее ХД разрабатывали криворучки, или изначально была выбрана в корне неверная архитектура.

Ну так, например, в одноклассниках было. Не думаю, что там была проблема в кривых руках.

Если количество данных растёт в разы, то и траты на лицензии растёт в разы. А прибыль у компании, как понятно, в разы расти не может. Ну и даже если у тебя есть деньги на лицензии. Если ты в ситуации, что ты платил за них X, а должен платить 10X, и при этом есть вариант сделать так, чтобы не платить за лицензии, мало кто сделает выбор в пользу платить 10X.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945157
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш,

А я не спорю, что clickhouse круче на прямом скане. С оговоркой, что в вертике, скорее всего, не удосужились проекции правильные сделать. Но вот когда дело дойдет до JOINов между большими таблицами (а это без это в DWH никак), вот тут clickhouse просядет.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945161
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Критик


Ну и довольно странной выглядит ситуация - когда объем данных, который льется ежедневно, насолько велик, что нужны новые лицензии (сотни Гб в день?), и при этом у компании нет денег... Я все же предположу, что тут скорее ХД разрабатывали криворучки, или изначально была выбрана в корне неверная архитектура.

ну так обычно растет не ежедневный поток, а скачками. типа допили интеграцию с еще несколькькими системами, купили конкурента, выпилили какое-то локальное dwh для одного из регионов.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945164
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
Критик


Ну и довольно странной выглядит ситуация - когда объем данных, который льется ежедневно, насолько велик, что нужны новые лицензии (сотни Гб в день?), и при этом у компании нет денег... Я все же предположу, что тут скорее ХД разрабатывали криворучки, или изначально была выбрана в корне неверная архитектура.

ну так обычно растет не ежедневный поток, а скачками. типа допили интеграцию с еще несколькькими системами, купили конкурента, выпилили какое-то локальное dwh для одного из регионов.


А ходить за примерами неправильной архитектуры далеко не надо. Вот по ссылке приведенной выше https://tech.marksblogg.com/benchmarks.html идем и находим.

Большинство ключей varchar, даты не отконвертированы в int. Да и дизайнить таблицу под вертику человек явно не умеет. Этим и объясняется то, что Вертика якобы хуже. Можно было и не делать даже суперахитектуру, а просто дизайн таблицы правильный сделать.

Код: sql
1.
2.
vendor_id               VARCHAR(3),
pickup                  VARCHAR(50),


CREATE TABLE trips (
trip_id INTEGER,
vendor_id VARCHAR(3),
pickup_datetime DATETIME,
dropoff_datetime DATETIME,
store_and_fwd_flag VARCHAR(1),
rate_code_id SMALLINT,
pickup_longitude DECIMAL(18,14),
pickup_latitude DECIMAL(18,14),
dropoff_longitude DECIMAL(18,14),
dropoff_latitude DECIMAL(18,14),
passenger_count SMALLINT,
trip_distance DECIMAL(6,3),
fare_amount DECIMAL(6,2),
extra DECIMAL(6,2),
mta_tax DECIMAL(6,2),
tip_amount DECIMAL(6,2),
tolls_amount DECIMAL(6,2),
ehail_fee DECIMAL(6,2),
improvement_surcharge DECIMAL(6,2),
total_amount DECIMAL(6,2),
payment_type VARCHAR(3),
trip_type SMALLINT,
pickup VARCHAR(50),
dropoff VARCHAR(50),

cab_type VARCHAR(6),

precipitation SMALLINT,
snow_depth SMALLINT,
snowfall SMALLINT,
max_temperature SMALLINT,
min_temperature SMALLINT,
average_wind_speed SMALLINT,

pickup_nyct2010_gid SMALLINT,
pickup_ctlabel VARCHAR(10),
pickup_borocode SMALLINT,
pickup_boroname VARCHAR(13),
pickup_ct2010 VARCHAR(6),
pickup_boroct2010 VARCHAR(7),
pickup_cdeligibil VARCHAR(1),
pickup_ntacode VARCHAR(4),
pickup_ntaname VARCHAR(56),
pickup_puma VARCHAR(4),

dropoff_nyct2010_gid SMALLINT,
dropoff_ctlabel VARCHAR(10),
dropoff_borocode SMALLINT,
dropoff_boroname VARCHAR(13),
dropoff_ct2010 VARCHAR(6),
dropoff_boroct2010 VARCHAR(7),
dropoff_cdeligibil VARCHAR(1),
dropoff_ntacode VARCHAR(4),
dropoff_ntaname VARCHAR(56),
dropoff_puma VARCHAR(4)
) ORDER BY pickup_datetime, dropoff_datetime;
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945242
Фотография Focha
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ребят у меня конкретный вопрос.
Куб SSAS, а источник Clickhouse (CH).

Есть дополнительные расчеты в CH, который считаются быстро, а в MSSQL долго.
Есть разница когда считается 1 секунду и 3 минуты.
Тут дело не в архитектуре, а в скорости расчетов.
Таблица одна большая ~200 000 000 строк, пример который я приводил, это уже результат
Код: sql
1.
2.
select count(*)
from Остатки 


Запрос там сложный, его оптимизацией заниматься на MSSQL не имеет смысла, так как не возможно получить скорость расчета в 1 сек.
Вы сейчас начнете предлагать варианты как оптимизировать данный расчет, но таких расчетов больше одного и они на CH выполняются ~1сек, для этого CH и используется.

Я знаю, что OLAP любит только MSSQL, но может кто-то пытался изменить мнение OLAP?
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945245
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Focha

Тут дело не в архитектуре, а в скорости расчетов.
Я знаю, что OLAP любит только MSSQL, но может кто-то пытался изменить мнение OLAP?


Тут дело в первую очередь в архитектуре, а не в выборе БД. "Запрос там сложный, его оптимизацией заниматься на MSSQL не имеет смысла," -- есть смысл выкинуть весь этот запрос к черту и сделать то, что Ральф Кимбалл говорит в книге https://www.kimballgroup.com/data-warehouse-business-intelligence-resources/books/data-warehouse-dw-lifecycle-toolkit/ . Глава"Dimensional Modeling" https://en.wikipedia.org/wiki/Dimensional_modeling

"Я знаю, что OLAP любит только MSSQL" -- я чуть под стол со смеху не упал от такого заявления, если участь что я имею опыт создания SSAS кубов от источников на Вертике, Oracle и MSSQL.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945261
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Focha,

спроси в телеге в чате по кликхаусу

t.me/clickhouse_ru
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945282
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть три вопроса, которые надо профильтровать, чтобы сделать куб от ClickHouse

1) Наличие драйвера от SSAS для ClickHouse
2) Cartridge File , который правильно транслирует запрос из SSAS в ClickHouse в MOLAP или ROLAP , что вы собрались делать
3) Возможность проброса DISTINCT COUNT , если вы собираетесь делать его как ROLAP

Кстати select count(*) from Остатки в качестве MDX от MOLAP тоже будет работать за < 1 сек. Отсюда вопрос, что за проблему вы пытается на самом деле решить?
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945543
Гулин Федор
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
@Focha,
а подскажите плз
у вас MOLAP в кубе ?
MDM (или табуляр ) ?

и что такое
Проблема с MSSQL, дополнительные вычисления делаются долго,
загрузка в ms-sql происходит долго
или билд куба на основе вьюх MS-SQL ?

или куб сделан на основе вьюх (запросов) к источнику в Click


мне просто хочется понять что все обсуждают
переход с MOLAP на ROLAP с запрсами в Click ?

@a_voronin
а как с правами в кубе в Rolap ?
там ничего не меняется
если права выдалваись через mdx Exists на димы по ролям
(или скажем тупо выставлялись галочками ) ?
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945687
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гулин Федор
@a_voronin
а как с правами в кубе в Rolap ?
там ничего не меняется
если права выдалваись через mdx Exists на димы по ролям
(или скажем тупо выставлялись галочками ) ?


а почему вдруг с правами что-то должно поменяться? MOLAP от ROLAP отличается тем, что у первого запросы запускаются во время процессинга, а второй просто транслирует MDX в запрос.
...
Рейтинг: 0 / 0
OLAP(SSAS) & DWH(Clickhouse)
    #39945688
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Гулин Федор


мне просто хочется понять что все обсуждают
переход с MOLAP на ROLAP с запрсами в Click ?


ТС решил сделать куб от клика, но четкого пояснения не дал. Предполагаю, что он некоторые группы мер хочет перевести в ROLAP. Отсюда вопрос, возможно ли это.

Я лично не слышал, чтобы от Click делали кубы. Надо просто пробовать.

Вообще у ТС не такой объем данных, чтобы иметь проблемы с производительностью. Потому что MOLAP от правильной модели миллиарды строк переваривает.
...
Рейтинг: 0 / 0
25 сообщений из 38, страница 1 из 2
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / OLAP(SSAS) & DWH(Clickhouse)
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]