|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Возможность параллельной одновременной загрузки всех объектов ХД. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 16:19 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений). Так зачем еще один слой? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 16:23 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Если тебе не нужно хранить полную историю изменений всех данных учётной системы, проводить аудит изменений, то строй звезду/снежинку ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 19:18 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., Для того, чтобы иметь возможность получить значения атрибутов и фактов в прошлом мне достаточно звезды. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 20:02 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Ну да, атрибутов и фактов. Но в ХД есть и другие объекты, связи например, как вы построите историю связей объектов, счетов-фактур с запросами на оплату, есть счёт-фактура к нему есть запрос на оплату, потом этот запрос на оплату удалили и создали два новых, разделив суммы счета-фактуры между ними, потом и их удалили, создали снова один запрос на оплату, как вы в своей плоской картине мира из атрибутов и фактов в звезде/снежинке покажете полную историю этого процесса? Никак. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 21:55 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. dbms_photoshop, Нормально все закончилось, построил пару, тройку хранилищ данных по DV 2.0, последнее в 2017 году, с тех пор больше ХД и BI не занимаюсь. Весной прошлого года перед самым карантином приглашали меня поработать с этой темой в Данию, я не поехал, время от времени тема эта всплывает. А чем теперь вместо ХД и BI занимаешься? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.01.2022, 17:38 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Полковник., В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений). Так зачем еще один слой? 3NF нужен для единого, согласованного источника построения звёзд чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются так то по Кимбалу строить сразу наборы звёзд быстрее, конечно На России все большие энтерпрайз хранилища в сторону 100 ТБ и выше для построения регулярной и управленческой отчетности делаются с общим 3NF. Ну или DV. DV нужен для того, что он более гибкий. Там быстрее меняется изменяется схема. Чотко разделена бизнес и технологическая семантика, ты просто новые технологические блоки стандартные запихиваешь при изменениях. Это ускоряет изменение схемы. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.01.2022, 17:44 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш, Process Mining в той его части где идёт работа с данными, системный анализ, поиск данных в источниксх, интеграция, разработка и загрузка модели данных. После меня работает бизнес-аналитик, роётся во всем этом, пытается показать бизнесу где косяки в их процессах и что нужно сделать, что бы косяки минимизировать. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.01.2022, 22:30 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., Часть работ похожа на архитектора модели данных. Но это тоже ХД и BI же, одна из его частей. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2022, 13:23 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш, Да, все сильно похоже на то, чем занимался раньше, переход не был трудным. В компании, где работаю это называют инженер-данных, хотя, это не принципиально. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2022, 17:46 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Практические преимущества 3NF (или DW) между стеджингом и звездой остаются для меня неясны. DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее. Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными. Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары. Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.01.2022, 11:20 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. как вы в своей плоской картине мира из атрибутов и фактов в звезде/снежинке покажете полную историю этого процесса? Никак. Если по каким-то причинам добавление в звезду не целесообразно, то можно в вонце концов связь заливать в стейджинг из оперативной базы и брать оттуда. Этот пример никоим образом для меня не проясняет необходимость лишнего слоя в виде DV. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 15:16 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш 3NF нужен для единого, согласованного источника построения звёзд чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются Какой департамент её стоит? Может оба дружно участвуют? Или вообще некий сторонний authority занимается консолидацией? Я допускаю, что это минимизирует риск расхождения данных в звёздах разных департаментов на основе консолидированного источника, но не исключает его. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 15:25 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее. Это вполне можно делать параллельно. Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно. a_voronin Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными. a_voronin Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары. Может быть речь про пред-заказы до поступления товаров? a_voronin Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения. Частота и способ обновления звезды, на мой взгляд, это отдельный вопрос от заливки в стейджинг, единственное что - её вряд ли имеет смысл обновлять чаще чем приходят данные. :) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 15:43 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Бумбараш 3NF нужен для единого, согласованного источника построения звёзд чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются Какой департамент её стоит? департамент данных ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 15:50 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно. Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно. p.s. Ну и про LAD они тоже почему-то не в курсе ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 17:07 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли. Ivan Durak Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 17:32 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Дедушка dbms_photoshop Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли. Ivan Durak Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно. не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 17:46 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Полковник., В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений). Так зачем еще один слой? че за бред. LAD изобрели 20 лет назад чтобы грузить факты до измерений ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 17:47 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ivan Durak Дедушка пропущено... задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли" пропущено... дело не в генерации ключа, а в идее отделения атрибутов ключа от самого ключа (если утрировать), что даёт лёгкое наращивание модели новыми атрибутами. DV имеет как плюсы, так и минусы, это инструмент, который хорош при определённых условиях. не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа Конечно, ведь DV это по сути и есть 3NF, просто об'ект разрезан на три таблицы - ключ, связи, атрибуты. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 18:55 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ну и добавить колонку, а потом перегрузить данные в таблицу, в которой 100 колонок и N ТБ данных очень интересное занятие да ещё и с историей, гораздо проще добавить 1 сателлит с одним атрибутом и догрузить только его. Вообще DV - это темпоральное, или даже битемпоральное хранилище данных, придумано для хранения истории исходных систем, а не для отчётов. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 19:05 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ivan Durak не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 19:56 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop a_voronin DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее. Это вполне можно делать параллельно. Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно. a_voronin Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными. a_voronin Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары. Может быть речь про пред-заказы до поступления товаров? a_voronin Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения. Частота и способ обновления звезды, на мой взгляд, это отдельный вопрос от заливки в стейджинг, единственное что - её вряд ли имеет смысл обновлять чаще чем приходят данные. :) DV и Якорная модель это и есть stage. Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу. Но этот принцип верен для реляционный БД, для Массивно парралельных, для Олап кубов, и т.п. 3NF не самая оптимальная структура для отчетности. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 20:02 |
|
|
Start [/forum/topic.php?do_citate=40128581&fid=49&msg=40128581&tid=1857040]: |
0ms |
get settings: |
2ms |
get forum list: |
7ms |
check forum access: |
0ms |
check topic access: |
0ms |
track hit: |
526ms |
get topic data: |
5ms |
get forum data: |
5ms |
get page messages: |
36ms |
get tp. blocked users: |
1ms |
others: | 107ms |
total: | 689ms |
0 / 0 |