powered by simpleCommunicator - 2.0.19     © 2024 Programmizd 02
Map
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Витрины данных. Что это?
25 сообщений из 99, страница 3 из 4
Витрины данных. Что это?
    #40124820
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,
Возможность параллельной одновременной загрузки всех объектов ХД.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124824
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений).
Так зачем еще один слой?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124870
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,
Если тебе не нужно хранить полную историю изменений всех данных учётной системы, проводить аудит изменений, то строй звезду/снежинку
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124877
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

Для того, чтобы иметь возможность получить значения атрибутов и фактов в прошлом мне достаточно звезды.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124885
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,
Ну да, атрибутов и фактов. Но в ХД есть и другие объекты, связи например, как вы построите историю связей объектов, счетов-фактур с запросами на оплату, есть счёт-фактура к нему есть запрос на оплату, потом этот запрос на оплату удалили и создали два новых, разделив суммы счета-фактуры между ними, потом и их удалили, создали снова один запрос на оплату, как вы в своей плоской картине мира из атрибутов и фактов в звезде/снежинке покажете полную историю этого процесса? Никак.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125242
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
dbms_photoshop,

Нормально все закончилось, построил пару, тройку хранилищ данных по DV 2.0, последнее в 2017 году, с тех пор больше ХД и BI не занимаюсь. Весной прошлого года перед самым карантином приглашали меня поработать с этой темой в Данию, я не поехал, время от времени тема эта всплывает.

А чем теперь вместо ХД и BI занимаешься?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125244
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Полковник.,

В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений).
Так зачем еще один слой?

3NF нужен для единого, согласованного источника построения звёзд
чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются

так то по Кимбалу строить сразу наборы звёзд быстрее, конечно

На России все большие энтерпрайз хранилища в сторону 100 ТБ и выше для построения регулярной и управленческой отчетности делаются с общим 3NF. Ну или DV.

DV нужен для того, что он более гибкий. Там быстрее меняется изменяется схема. Чотко разделена бизнес и технологическая семантика, ты просто новые технологические блоки стандартные запихиваешь при изменениях. Это ускоряет изменение схемы.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125267
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш,

Process Mining в той его части где идёт работа с данными, системный анализ, поиск данных в источниксх, интеграция, разработка и загрузка модели данных. После меня работает бизнес-аналитик, роётся во всем этом, пытается показать бизнесу где косяки в их процессах и что нужно сделать, что бы косяки минимизировать.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125311
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

Часть работ похожа на архитектора модели данных. Но это тоже ХД и BI же, одна из его частей.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125341
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш,

Да, все сильно похоже на то, чем занимался раньше, переход не был трудным. В компании, где работаю это называют инженер-данных, хотя, это не принципиально.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125687
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Практические преимущества 3NF (или DW) между стеджингом и звездой остаются для меня неясны.


DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее.

Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными.

Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары.

Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125828
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin,

YouTube Video
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128445
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
как вы в своей плоской картине мира из атрибутов и фактов в звезде/снежинке покажете полную историю этого процесса? Никак.
Это очень верное замечание. В звезде/снежинке хранится то, что надо для отчетности. Если для отчетности понадобится связь, то её туда можно добавить.
Если по каким-то причинам добавление в звезду не целесообразно, то можно в вонце концов связь заливать в стейджинг из оперативной базы и брать оттуда.
Этот пример никоим образом для меня не проясняет необходимость лишнего слоя в виде DV.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128455
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш
3NF нужен для единого, согласованного источника построения звёзд
чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются
Я правильно понимаю, что в дополнение к основному источнику/источникам строится некая консолидированная 3NF для разбора полётов?
Какой департамент её стоит? Может оба дружно участвуют? Или вообще некий сторонний authority занимается консолидацией?

Я допускаю, что это минимизирует риск расхождения данных в звёздах разных департаментов на основе консолидированного источника, но не исключает его.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128468
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее.
Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли.
Это вполне можно делать параллельно.
Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно.
a_voronin
Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными.
В каком смысле более омтимальными? Как предполагается пере-использовать суррогатные ключи в звезде/снежинке если гранулярность данных иная?
a_voronin
Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары.
Это что-то в духе заливки фактов когда не до конца прояснены атрибуты измерений? Интересное замечание, но я затрудняюсь придумать реальный пример.
Может быть речь про пред-заказы до поступления товаров?
a_voronin
Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения.
Вопрос про формирования stage у меня не возникает, только я выступаю за его формирования "AS IS" как поступают данные без последующего переливания в 3NF/DV.
Частота и способ обновления звезды, на мой взгляд, это отдельный вопрос от заливки в стейджинг, единственное что - её вряд ли имеет смысл обновлять чаще чем приходят данные. :)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128475
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Бумбараш
3NF нужен для единого, согласованного источника построения звёзд
чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются
Я правильно понимаю, что в дополнение к основному источнику/источникам строится некая консолидированная 3NF для разбора полётов?
Какой департамент её стоит?

департамент данных
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128530
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop

Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно.

Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно.
p.s. Ну и про LAD они тоже почему-то не в курсе
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128542
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли.
задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли"

Ivan Durak
Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно.
дело не в генерации ключа, а в идее отделения атрибутов ключа от самого ключа (если утрировать), что даёт лёгкое наращивание модели новыми атрибутами. DV имеет как плюсы, так и минусы, это инструмент, который хорош при определённых условиях.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128547
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушка
dbms_photoshop
Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли.
задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли"

Ivan Durak
Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно.
дело не в генерации ключа, а в идее отделения атрибутов ключа от самого ключа (если утрировать), что даёт лёгкое наращивание модели новыми атрибутами. DV имеет как плюсы, так и минусы, это инструмент, который хорош при определённых условиях.


не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128548
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Полковник.,

В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений).
Так зачем еще один слой?

че за бред. LAD изобрели 20 лет назад чтобы грузить факты до измерений
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128565
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak
Дедушка
пропущено...
задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли"

пропущено...
дело не в генерации ключа, а в идее отделения атрибутов ключа от самого ключа (если утрировать), что даёт лёгкое наращивание модели новыми атрибутами. DV имеет как плюсы, так и минусы, это инструмент, который хорош при определённых условиях.


не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа

Конечно, ведь DV это по сути и есть 3NF, просто об'ект разрезан на три таблицы - ключ, связи, атрибуты.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128567
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну и добавить колонку, а потом перегрузить данные в таблицу, в которой 100 колонок и N ТБ данных очень интересное занятие да ещё и с историей, гораздо проще добавить 1 сателлит с одним атрибутом и догрузить только его.
Вообще DV - это темпоральное, или даже битемпоральное хранилище данных, придумано для хранения истории исходных систем, а не для отчётов.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128577
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak
не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа
суть в том, что добавление нового атрибута в DV это создание новой, отдельной таблицы для этого атрибута. И это не затрагивает уже существующие атрибуты на уровне хранения и не предполагает (в общем случае) изменения ETL для их загрузки, новый атрибут = новый, отдельный кусочек ETL.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128581
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
a_voronin
DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее.
Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли.
Это вполне можно делать параллельно.
Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно.
a_voronin
Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными.
В каком смысле более омтимальными? Как предполагается пере-использовать суррогатные ключи в звезде/снежинке если гранулярность данных иная?
a_voronin
Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары.
Это что-то в духе заливки фактов когда не до конца прояснены атрибуты измерений? Интересное замечание, но я затрудняюсь придумать реальный пример.
Может быть речь про пред-заказы до поступления товаров?
a_voronin
Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения.
Вопрос про формирования stage у меня не возникает, только я выступаю за его формирования "AS IS" как поступают данные без последующего переливания в 3NF/DV.
Частота и способ обновления звезды, на мой взгляд, это отдельный вопрос от заливки в стейджинг, единственное что - её вряд ли имеет смысл обновлять чаще чем приходят данные. :)


DV и Якорная модель это и есть stage.
Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу. Но этот принцип верен для реляционный БД, для Массивно парралельных, для Олап кубов, и т.п.
3NF не самая оптимальная структура для отчетности.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128757
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin

3NF не самая оптимальная структура для отчетности.

DV еще менее оптимальная, по любому для отчетности датамарты делать денормализованные
...
Рейтинг: 0 / 0
25 сообщений из 99, страница 3 из 4
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Витрины данных. Что это?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали тему (0):
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]