|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. Ну и добавить колонку, а потом перегрузить данные в таблицу, в которой 100 колонок и N ТБ данных очень интересное занятие да ещё и с историей Зачем?? зачем при добавлении колонки перегружать всю таблицу??? (не важно с историей или без). Это вы сами придумали или где-то прочитали?? гораздо проще добавить 1 сателлит с одним атрибутом и догрузить только его. одну колонку проще добавить чем одну таблицу полюбому Вообще DV - это темпоральное, или даже битемпоральное хранилище данных, придумано для хранения истории исходных систем, а не для отчётов. и 3nf для хранения исходных систем, для отчетов датамарты денормализованные придуманы, поверх 3нф построенные. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 03:43 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш департамент данных ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 18:38 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Дедушка задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли" Например отсюда https://www.matillion.com/resources/blog/data-vault-vs-star-schema-vs-third-normal-form-which-data-model-to-use Staging data models Key characteristics of staging data models are: The model is determined by the source system ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 18:49 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin DV и Якорная модель это и есть stage. Мне таки попалось относительно адекватное описание DV. https://www.indellient.com/blog/data-vault-what-is-it-and-when-should-it-be-used/ Если влом читать цликом, то можно ознакомитсяс секцией "The Drawbacks". a_voronin Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу. Можно поподробнее куда и сколько уходило времени и как здесь помог укороченный ключ. Идеально было бы с планами запросов и затраченным временем на каждой операции плана. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 19:02 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ivan Durak, Зачем, зачем, вопрос какой то странный, значит было надо, была такая задачка, добавить колонку и перегрузить данные за десять лет с учётом добавленной колонки. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 21:52 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop a_voronin Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу. Можно поподробнее куда и сколько уходило времени и как здесь помог укороченный ключ. Идеально было бы с планами запросов и затраченным временем на каждой операции плана. Знаете я уже вышел из того возраста, когда я ковыряюсь в планах, если и смотрю, то как правило живые планы и присматриваюсь как какой узел тикает. Обычно на смотрю на типы полей, индексы и запрос и вижу, что надо исправить. Причем в последнее время на даже на ранее неизвестных мне БД. По поводу "поподробнее куда и сколько уходило времени" -- я не вдаюсь в такие детали -- мой подход -- исправил запрос залетало. А в планах можете поковыряться сами. Мне за почти 20 лет программирования на БД это уже надоело. Как правило, когда кто-то не может оптимизировать запрос - идут ко мне. Поэтому чем меньше ключ -- тем быстрее. Можете начать громче кричать, что в моих словах нет пруфа, что это не обоснованно, что надо обосновать ... мне это не интересно. Замените varchar(32) на GUID -- выигрыш в 2 раза и более, на BIGINT в 4 раза и более, на INT64 в 8 раз, на INT32 в 16 раз. Лично проверено на таких БД как MS SQL, Oracle, Vertica, GreenPlum, SAP HANA, MySQL, SSAS. Удручает то, что часто приходится разгребать полное Г. после тех, кто не задумывался о типах полей. Напишите A JOIN B на полях различных размеров и типов и сами для себя сделайте пруф. Посмотрите планы. У меня хватает запросов с 15-25 джойнами для оптимизации. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 03:05 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, молодец!!! [youtube=https://www.youtube.com/watch?v=IZw1cB1uDts] теперь можешь прокомментировать/проанализировать вторую часть ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 03:20 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные. Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 12:55 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop a_voronin DV и Якорная модель это и есть stage. Мне таки попалось относительно адекватное описание DV. https://www.indellient.com/blog/data-vault-what-is-it-and-when-should-it-be-used/ Если влом читать цликом, то можно ознакомитсяс секцией "The Drawbacks". Ты сам внимательно прочитал указанную статью? Data Vault is essentially a layer between the information mart / star schema and staging. There is some additional overhead that comes with developing this layer both in terms of ETL development and modeling. If the project is on a small scale or the project’s life is short-lived, it may not be worth pursuing a Data Vault model. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 13:12 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные. Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего? Видимо теоретик запутался в понятиях KNOT и ANCHOR/HUB . LINK/TIE на первый как правило не историчен, на второй историчен. Мне вот тоже странно смотреть на людей, которые ни черта не имеют практического опыта в данных моделях, но начинают теоретизировать в неизвестное никуда. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 13:15 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin Знаете я уже вышел из того возраста, когда я ковыряюсь в планах Но мне уже предельно ясно, что содержательного диалога тут быть не могло. a_voronin молодец!!! ... теперь можешь прокомментировать/проанализировать вторую часть Сохранить лицо можно было бы как-то ответив на мои пункты или прокомментировав видео, но я понял, что это непосильная задача. a_voronin Ты сам внимательно прочитал указанную статью? Data Vault is essentially a layer between the information mart / star schema and staging. There is some additional overhead that comes with developing this layer both in terms of ETL development and modeling. If the project is on a small scale or the project’s life is short-lived, it may not be worth pursuing a Data Vault model. Здесь не понятно у тебя плохо с английским или с логикой, но в любом случае беспредметную дискуссию нет смысла продолжать. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 21:33 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные. Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего? Господин Воронин предложил для ознакомления видео 22419419 Я высказал недоумение относительно увиденного. Если вопрос про линк и историю, то можно просмотреть с 33:33 ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 21:47 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Дело лишь в том, что у Полковника есть опыт разработки DV, а у меня якорной модели. У Голова есть опыт и того и другого. Как это вписывается в хранилище нам понятно. Мне доводилось встречаться с ними лично. У тебя похоже знания теоретические. А твои требования, докажи, продемонстрируй. Возьми проект по DV или Якорям и реализуй сам. Тогда поймешь. Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 03:04 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже. А между якорной моделью и витринами / звездами был еще какой то слой? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 13:31 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже. А где якоря вообще используются на интерпрайз уровне, кроме Авито? Не видел нигде. Был на собесе в Авито, 5+ лет назад, спросил почему у вас якоря, какие плюсы минусы - типы мне не смогли ответить ничего. После этого подумал, что так как Авито шведская контора и якоря из Швеции, они туда как-то скочевали видимо из Скандинавии. На дракарах. Больше нигде якорей не видел. DV, да, сейчас самая популярная модель. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 15:35 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш a_voronin Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже. А где якоря вообще используются на интерпрайз уровне, кроме Авито? Не видел нигде. Был на собесе в Авито, 5+ лет назад, спросил почему у вас якоря, какие плюсы минусы - типы мне не смогли ответить ничего. После этого подумал, что так как Авито шведская контора и якоря из Швеции, они туда как-то скочевали видимо из Скандинавии. На дракарах. Больше нигде якорей не видел. DV, да, сейчас самая популярная модель. Я внедрял в Вайлдберрз и Мираторге. В последнем по имеющимся сведениям они по прежнему работают. Был на собесе в Profi.ru уже года 3-4 назад. Там планировали делать. Есть ещё какая-то контора на западе Москвы, там тоже есть якоря на Вертике. Время от времени вижу в вакансия требования о знании якорей. Из Авито Голов ушел уже давно. То, что человек с кем собеседовались ничего не сказал, не значит, что их похерили. В большой конторе могут и не знать, что в соседнем отделе. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 18:10 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
s_ustinov, По сути не было. Сначала данные лили в буфер -- по сути временная таблица. Потом в якоря. Потом таблицу, которые SWAP PATRITION-ом загонял в конечные факты. Примерно так. Примерно это же показывал Голов, когда я с ним общался в Авито. Якоря хороши на сущностях типа заказов, где происходит более 20 обновлений записей в процессе обработки. Ещё они хороши, где крупный справочник, вроде товаров завязан на много таблиц, типа заказы, платежи, поставки, остатки, цены, планы и т.п. Если вы покопаетесь в статьях основателя, то там есть исследование, что эффект от якорей начинает проявляться лишь после уровня в поллимона записей. Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 18:17 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом. случайно одна нода не ключ к успеху тут ? если бы этот миллиард джойнов пришлось бы делать на нескольких узлах - не вылезли бы сложности с тусованием данных для джойнов по нодам ? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 19:51 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
H5N1 a_voronin Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом. случайно одна нода не ключ к успеху тут ? если бы этот миллиард джойнов пришлось бы делать на нескольких узлах - не вылезли бы сложности с тусованием данных для джойнов по нодам ? Если вы умеете разрабатывать правильный код на массивно-параллельных базах, то не вылезут. Если не умеете, то вылезут. Но главный принцип там простой -- справочники клонируются на все ноды, факты шардируются по всем нодам, но иногда требуется соединить что-то вперемешку и тогда будет перемешивание. Но это редко. Якорная модель на массивно параллельные БД ложиться хорошо. Хотя могут быть нюансы под конкретную задачу. Для нее важны джойны. Поэтому Кликхаус плох для нее. Гринплам тоже не очень, но Голов говорит, что последняя версия уже может потянуть. Вертика, Терадата. Вот ок. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 20:30 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin s_ustinov, По сути не было. Сначала данные лили в буфер -- по сути временная таблица. Потом в якоря. Потом таблицу, которые SWAP PATRITION-ом загонял в конечные факты. Примерно так. Примерно это же показывал Голов, когда я с ним общался в Авито. Думаю, тут расхождение в терминологии. Лично мне нравится вот такая классификация “слоев”: Stage --> Core --> Data Marts И звезды - одна из разновидностей витрин данных. При этом стейдж максимально близок по структуре и форматам к системам - источникам, а витрины данных удобны для пользователей. И, разумеется, в реальных системах часть слоев может быть пропущена. Отчеты в принципе можно строить непосредственно на 3NF / DV, хотя это и будет не очень удобно. Точно так же можно из стейджа сразу лить данные в витрины, как Кимбал предлагает. То есть то, что вы льете данные сразу в якоря - не делает этот слой стейджем. Большинство авторов явно указывают, что схожесть структуры данных к структуре в системах источниках (или выгрузок из них) является одним из признаков стейджа. А я как то сильно сомневаюсь, что у вас источники данные хранят в якорной модели. ))) a_voronin Сначала данные лили в буфер -- по сути временная таблица. Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2022, 14:24 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
s_ustinov a_voronin Сначала данные лили в буфер -- по сути временная таблица. Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников. да полностью повторяет, но stage в моем понимании данные сохраняет, а буфер нет ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2022, 15:10 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop [quote=Полковник.]Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные. Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего? Господин Воронин предложил для ознакомления видео 22419419 Я высказал недоумение относительно увиденного. Если вопрос про линк и историю, то можно просмотреть с 33:33 ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2022, 15:11 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin s_ustinov пропущено... Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников. да полностью повторяет, но stage в моем понимании данные сохраняет, а буфер нет Значит, в этом проекте полноценного стейджа нет. А есть слой Core с якорной моделью и витрины. Но это - вопрос используемой терминологии. Вам может быть удобнее использовать другое значение терминов. Хотя приведенное мной, как мне кажется, более распространенное. Особенно учитывая тот факт, что подход ELT последнее время используется чаще, чем ETL. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2022, 20:20 |
|
|
start [/forum/topic.php?fid=49&msg=40128988&tid=1857040]: |
0ms |
get settings: |
10ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
346ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
56ms |
get tp. blocked users: |
1ms |
others: | 291ms |
total: | 739ms |
0 / 0 |