powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / OLAP и обновление данных
11 сообщений из 11, страница 1 из 1
OLAP и обновление данных
    #39374523
Alexey Goloburdin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Всем привет!

Хочется спросить совета у опытных в BI вопросах товарищей. Есть OLTP хранилище с, например, данными заказов. Есть некое хранилище под аналитику (OLAP или, как мы сейчас думаем, Yandex Clickhouse). Данные заказов могут меняться , то есть может изменяться состав заказа и т.д. Так вот как аналитическое хранилище работает с изменяемыми данными? Данные заливаются только после подтверждения, чтобы их не менять? Но тогда получается, что в аналитике не все данные будут и достаточно большой лаг по времени (если подтверждение занимает несколько дней)... Или данные в аналитике меняются?

Просто в Clickhouse UPDATE/DELETE нет и вот мы думаем, как с этим жить. Обновлять-то задача есть:)
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39374549
Sutasu
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
А история состояния заказа вас не интересует? Изменение состояния - это, как правило, накопление фактов, а не изменение справочников...
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39374550
Sutasu
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Т.е. предположить - условно - что может протребоваться аналитика, почему дошедший было клиент удаляет заказ, или какие продукты на какие чаще всего меняют, и т.д.
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39374636
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Alexey Goloburdin,

для разной аналитики есть разные подходы к построению ХД
можно писать все изменения "в кучу" с одним ID группы (+ инкремент, дата, флаг актуальной версии и тп.)
сильно зависит от вашей задачи
почитайте про SCD2 (общую идею)

Alexey GoloburdinПросто в Clickhouse UPDATE/DELETE нет и вот мы думаем, как с этим жить. Обновлять-то задача есть:)что касается кликхауса, то это очень специфичное решение под узкую задачу
я бы сильно подумал перед выбором его для ХД под аналитику заказов
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39375308
Leoris
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Alexey Goloburdin,
Clickhouse очень молодая разработка, её вроде никто в промышленной эксплуатации не использовал.
В зависимости от объемов, вам даже Postgres может подойти. А по вопросу - посмотрите варианты SCD (Slowly changing dimension) и выберите подходящий.
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39375561
Roman Kolchin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
LeorisClickhouse очень молодая разработка, её вроде никто в промышленной эксплуатации не использовал.
На самом деле ClickHouse используется в самом Яндексе уже несколько лет. В промышленной эксплуатации с 2012 года.

Масштабы системы в Yandex Metrica из презентации с Highload'2016:
3 петабайта данных,

412 серверов в 6 ЦОДах,

единицы часов простоя за 4 года эксплуатации.

История ClickHouse (из той же презентации):

Январь 2009 - Прототип / Proof of concept

Август 2012 - Начало промышленной эксплуатации в Yandex Metrica

Декабрь 2014 - Существенное расширение возможностей для Metrica 2.0

Июнь 2016 - Публикация ClickHouse в открытый доступ под лицензией Apache License 2.0

Помимо Метрики ClickHouse используется еще в 20+ менее масштабных проектах внутри Яндекса.

Также в этом году ClickHouse запустили в промышленную эксплуатацию в LifeStreet Media ( www.lifestreet.com ). Выступление товарища оттуда было также на Highload'2016.
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39375795
Leoris
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Roman Kolchin, я имел в виду промышленное использование за пределами Яндекса конечно же.

Сравнение с другими системами весьма впечатляют, единственный большой минус, о котором упоминал автор ветки - нет возможности исправить данные, т.е. очень высокие требования к качеству исходной информации. Чтобы что-то надо поправить - будьте добры дропнуть старую таблицу и создать новую с корректными данными.

Если эта исходная таблица фактов, на которую настроено множество аналитических витрин, такая операция будет болезненной.
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39375853
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leorisт.е. очень высокие требования к качеству исходной информации. Чтобы что-то надо поправить - будьте добры дропнуть старую таблицу и создать новую с корректными данными.

Если эта исходная таблица фактов, на которую настроено множество аналитических витрин, такая операция будет болезненной.просто не нужно использовать молоток там где нужна отвёртка... кликхаус создавался как система сохранения и анализа стрима, по сути данных с датчиков (клики и пр.)
и посему ни о каких "изменениях" данных речи не идёт, даже более того, если часть этого стрима потеряется это не принципиально (с точки зрения того для чего эта система создавалась).
а далее происходит ровно то, что происходило с хадупом, народ пытается натянуть систему которая хорошо работает в своей нише на другие области и начинает "есть кактус". имхо.
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39376062
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Leoris,

Для того чтобы изменить данные в ХД не обязательно делать апдейт, можно обойтись вставкой с новой датой валидности данных.
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39376127
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Или сторнировть старую неверную запись и вставить новую.
...
Рейтинг: 0 / 0
OLAP и обновление данных
    #39376131
soulsurfer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.Leoris,

Для того чтобы изменить данные в ХД не обязательно делать апдейт, можно обойтись вставкой с новой датой валидности данных.

Смотря какие данные и что собираетесь анализировать: можно углубиться в тему технической и бизнесовой историзации, а также в тему анализа темпоральных данных.
...
Рейтинг: 0 / 0
11 сообщений из 11, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / OLAP и обновление данных
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]