|
|
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Всем привет! Хочется спросить совета у опытных в BI вопросах товарищей. Есть OLTP хранилище с, например, данными заказов. Есть некое хранилище под аналитику (OLAP или, как мы сейчас думаем, Yandex Clickhouse). Данные заказов могут меняться , то есть может изменяться состав заказа и т.д. Так вот как аналитическое хранилище работает с изменяемыми данными? Данные заливаются только после подтверждения, чтобы их не менять? Но тогда получается, что в аналитике не все данные будут и достаточно большой лаг по времени (если подтверждение занимает несколько дней)... Или данные в аналитике меняются? Просто в Clickhouse UPDATE/DELETE нет и вот мы думаем, как с этим жить. Обновлять-то задача есть:) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.12.2016, 20:30 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
А история состояния заказа вас не интересует? Изменение состояния - это, как правило, накопление фактов, а не изменение справочников... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.12.2016, 21:10 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Т.е. предположить - условно - что может протребоваться аналитика, почему дошедший было клиент удаляет заказ, или какие продукты на какие чаще всего меняют, и т.д. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.12.2016, 21:12 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Alexey Goloburdin, для разной аналитики есть разные подходы к построению ХД можно писать все изменения "в кучу" с одним ID группы (+ инкремент, дата, флаг актуальной версии и тп.) сильно зависит от вашей задачи почитайте про SCD2 (общую идею) Alexey GoloburdinПросто в Clickhouse UPDATE/DELETE нет и вот мы думаем, как с этим жить. Обновлять-то задача есть:)что касается кликхауса, то это очень специфичное решение под узкую задачу я бы сильно подумал перед выбором его для ХД под аналитику заказов ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.12.2016, 03:07 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Alexey Goloburdin, Clickhouse очень молодая разработка, её вроде никто в промышленной эксплуатации не использовал. В зависимости от объемов, вам даже Postgres может подойти. А по вопросу - посмотрите варианты SCD (Slowly changing dimension) и выберите подходящий. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.12.2016, 14:17 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
LeorisClickhouse очень молодая разработка, её вроде никто в промышленной эксплуатации не использовал. На самом деле ClickHouse используется в самом Яндексе уже несколько лет. В промышленной эксплуатации с 2012 года. Масштабы системы в Yandex Metrica из презентации с Highload'2016: 3 петабайта данных, 412 серверов в 6 ЦОДах, единицы часов простоя за 4 года эксплуатации. История ClickHouse (из той же презентации): Январь 2009 - Прототип / Proof of concept Август 2012 - Начало промышленной эксплуатации в Yandex Metrica Декабрь 2014 - Существенное расширение возможностей для Metrica 2.0 Июнь 2016 - Публикация ClickHouse в открытый доступ под лицензией Apache License 2.0 Помимо Метрики ClickHouse используется еще в 20+ менее масштабных проектах внутри Яндекса. Также в этом году ClickHouse запустили в промышленную эксплуатацию в LifeStreet Media ( www.lifestreet.com ). Выступление товарища оттуда было также на Highload'2016. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.12.2016, 19:29 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Roman Kolchin, я имел в виду промышленное использование за пределами Яндекса конечно же. Сравнение с другими системами весьма впечатляют, единственный большой минус, о котором упоминал автор ветки - нет возможности исправить данные, т.е. очень высокие требования к качеству исходной информации. Чтобы что-то надо поправить - будьте добры дропнуть старую таблицу и создать новую с корректными данными. Если эта исходная таблица фактов, на которую настроено множество аналитических витрин, такая операция будет болезненной. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2016, 09:26 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Leorisт.е. очень высокие требования к качеству исходной информации. Чтобы что-то надо поправить - будьте добры дропнуть старую таблицу и создать новую с корректными данными. Если эта исходная таблица фактов, на которую настроено множество аналитических витрин, такая операция будет болезненной.просто не нужно использовать молоток там где нужна отвёртка... кликхаус создавался как система сохранения и анализа стрима, по сути данных с датчиков (клики и пр.) и посему ни о каких "изменениях" данных речи не идёт, даже более того, если часть этого стрима потеряется это не принципиально (с точки зрения того для чего эта система создавалась). а далее происходит ровно то, что происходило с хадупом, народ пытается натянуть систему которая хорошо работает в своей нише на другие области и начинает "есть кактус". имхо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2016, 10:34 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Leoris, Для того чтобы изменить данные в ХД не обязательно делать апдейт, можно обойтись вставкой с новой датой валидности данных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2016, 14:10 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Или сторнировть старую неверную запись и вставить новую. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2016, 14:55 |
|
||
|
OLAP и обновление данных
|
|||
|---|---|---|---|
|
#18+
Полковник.Leoris, Для того чтобы изменить данные в ХД не обязательно делать апдейт, можно обойтись вставкой с новой датой валидности данных. Смотря какие данные и что собираетесь анализировать: можно углубиться в тему технической и бизнесовой историзации, а также в тему анализа темпоральных данных. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.12.2016, 14:59 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=39375853&tid=1858426]: |
0ms |
get settings: |
10ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
73ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
44ms |
get tp. blocked users: |
2ms |
| others: | 13ms |
| total: | 173ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...