powered by simpleCommunicator - 2.0.18     © 2024 Programmizd 02
Map
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Витрины данных. Что это?
24 сообщений из 99, страница 4 из 4
Витрины данных. Что это?
    #40128758
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Ну и добавить колонку, а потом перегрузить данные в таблицу, в которой 100 колонок и N ТБ данных очень интересное занятие да ещё и с историей

Зачем?? зачем при добавлении колонки перегружать всю таблицу??? (не важно с историей или без). Это вы сами придумали или где-то прочитали??

гораздо проще добавить 1 сателлит с одним атрибутом и догрузить только его.

одну колонку проще добавить чем одну таблицу полюбому

Вообще DV - это темпоральное, или даже битемпоральное хранилище данных, придумано для хранения истории исходных систем, а не для отчётов.
и 3nf для хранения исходных систем, для отчетов датамарты денормализованные придуманы, поверх 3нф построенные.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128837
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quote=a_voronin]a_voronin,

YouTube Video
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128839
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш
департамент данных
Понятно, спасибо. В ваших реалиях аргументация в пользу подолнительного слоя понятна.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128841
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушка
задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли"
Я не сомневаюсь что в ваших реалиях стейджингом может называться набор дополнительных таблиц для выполнения ETL или что еще угодно, я говорил про staging data model.
Например отсюда
https://www.matillion.com/resources/blog/data-vault-vs-star-schema-vs-third-normal-form-which-data-model-to-use Staging data models

Key characteristics of staging data models are:

The model is determined by the source system
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128844
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
DV и Якорная модель это и есть stage.
Это абсолютно неверно.
Мне таки попалось относительно адекватное описание DV.
https://www.indellient.com/blog/data-vault-what-is-it-and-when-should-it-be-used/
Если влом читать цликом, то можно ознакомитсяс секцией "The Drawbacks".

a_voronin
Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу.
Это очень интересное заявление.
Можно поподробнее куда и сколько уходило времени и как здесь помог укороченный ключ.
Идеально было бы с планами запросов и затраченным временем на каждой операции плана.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128868
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak,
Зачем, зачем, вопрос какой то странный, значит было надо, была такая задачка, добавить колонку и перегрузить данные за десять лет с учётом добавленной колонки.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128906
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop


a_voronin
Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу.
Это очень интересное заявление.
Можно поподробнее куда и сколько уходило времени и как здесь помог укороченный ключ.
Идеально было бы с планами запросов и затраченным временем на каждой операции плана.


Знаете я уже вышел из того возраста, когда я ковыряюсь в планах, если и смотрю, то как правило живые планы и присматриваюсь как какой узел тикает. Обычно на смотрю на типы полей, индексы и запрос и вижу, что надо исправить. Причем в последнее время на даже на ранее неизвестных мне БД. По поводу "поподробнее куда и сколько уходило времени" -- я не вдаюсь в такие детали -- мой подход -- исправил запрос залетало. А в планах можете поковыряться сами. Мне за почти 20 лет программирования на БД это уже надоело. Как правило, когда кто-то не может оптимизировать запрос - идут ко мне.

Поэтому чем меньше ключ -- тем быстрее. Можете начать громче кричать, что в моих словах нет пруфа, что это не обоснованно, что надо обосновать ... мне это не интересно.
Замените varchar(32) на GUID -- выигрыш в 2 раза и более, на BIGINT в 4 раза и более, на INT64 в 8 раз, на INT32 в 16 раз.

Лично проверено на таких БД как MS SQL, Oracle, Vertica, GreenPlum, SAP HANA, MySQL, SSAS.

Удручает то, что часто приходится разгребать полное Г. после тех, кто не задумывался о типах полей.

Напишите A JOIN B на полях различных размеров и типов и сами для себя сделайте пруф. Посмотрите планы. У меня хватает запросов с 15-25 джойнами для оптимизации.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128910
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

молодец!!!

[youtube=https://www.youtube.com/watch?v=IZw1cB1uDts]

теперь можешь прокомментировать/проанализировать вторую часть
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128981
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные.
Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128988
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
a_voronin
DV и Якорная модель это и есть stage.
Это абсолютно неверно.
Мне таки попалось относительно адекватное описание DV.
https://www.indellient.com/blog/data-vault-what-is-it-and-when-should-it-be-used/
Если влом читать цликом, то можно ознакомитсяс секцией "The Drawbacks".


Ты сам внимательно прочитал указанную статью?

Data Vault is essentially a layer between the information mart / star schema and staging. There is some additional overhead that comes with developing this layer both in terms of ETL development and modeling. If the project is on a small scale or the project’s life is short-lived, it may not be worth pursuing a Data Vault model.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128989
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные.
Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего?


Видимо теоретик запутался в понятиях KNOT и ANCHOR/HUB . LINK/TIE на первый как правило не историчен, на второй историчен. Мне вот тоже странно смотреть на людей, которые ни черта не имеют практического опыта в данных моделях, но начинают теоретизировать в неизвестное никуда.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129169
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
Знаете я уже вышел из того возраста, когда я ковыряюсь в планах
Мой ответ был сделан чтобы намекнуть, что даже в вырожденном случае время не будет изменяться в той же пропорции что и длина ключа.
Но мне уже предельно ясно, что содержательного диалога тут быть не могло.
a_voronin
молодец!!!

...

теперь можешь прокомментировать/проанализировать вторую часть
Стиль общения как быдло не добавляет тебе убедительности.
Сохранить лицо можно было бы как-то ответив на мои пункты или прокомментировав видео, но я понял, что это непосильная задача.
a_voronin
Ты сам внимательно прочитал указанную статью?

Data Vault is essentially a layer between the information mart / star schema and staging. There is some additional overhead that comes with developing this layer both in terms of ETL development and modeling. If the project is on a small scale or the project’s life is short-lived, it may not be worth pursuing a Data Vault model.
"DV это по сути слой между звездой и стеджингом" не эквивалентно "DV и Якорная модель это и есть stage". Я думал это предельно очевидно.
Здесь не понятно у тебя плохо с английским или с логикой, но в любом случае беспредметную дискуссию нет смысла продолжать.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129171
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные.
Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего?
Если вопрос ко мне, я затрудняюсь ответить почему это спикеру пришло в голову.
Господин Воронин предложил для ознакомления видео 22419419
Я высказал недоумение относительно увиденного.

Если вопрос про линк и историю, то можно просмотреть с 33:33
YouTube Video
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129182
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

Дело лишь в том, что у Полковника есть опыт разработки DV, а у меня якорной модели. У Голова есть опыт и того и другого. Как это вписывается в хранилище нам понятно. Мне доводилось встречаться с ними лично.

У тебя похоже знания теоретические. А твои требования, докажи, продемонстрируй. Возьми проект по DV или Якорям и реализуй сам. Тогда поймешь.

Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129263
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin

Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже.

А между якорной моделью и витринами / звездами был еще какой то слой?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129308
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin


Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже.

А где якоря вообще используются на интерпрайз уровне, кроме Авито?
Не видел нигде. Был на собесе в Авито, 5+ лет назад, спросил почему у вас якоря, какие плюсы минусы - типы мне не смогли ответить ничего. После этого подумал, что так как Авито шведская контора и якоря из Швеции, они туда как-то скочевали видимо из Скандинавии. На дракарах.
Больше нигде якорей не видел.

DV, да, сейчас самая популярная модель.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129367
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш
a_voronin


Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже.

А где якоря вообще используются на интерпрайз уровне, кроме Авито?
Не видел нигде. Был на собесе в Авито, 5+ лет назад, спросил почему у вас якоря, какие плюсы минусы - типы мне не смогли ответить ничего. После этого подумал, что так как Авито шведская контора и якоря из Швеции, они туда как-то скочевали видимо из Скандинавии. На дракарах.
Больше нигде якорей не видел.

DV, да, сейчас самая популярная модель.


Я внедрял в Вайлдберрз и Мираторге. В последнем по имеющимся сведениям они по прежнему работают.

Был на собесе в Profi.ru уже года 3-4 назад. Там планировали делать. Есть ещё какая-то контора на западе Москвы, там тоже есть якоря на Вертике.

Время от времени вижу в вакансия требования о знании якорей.

Из Авито Голов ушел уже давно. То, что человек с кем собеседовались ничего не сказал, не значит, что их похерили. В большой конторе могут и не знать, что в соседнем отделе.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129369
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
s_ustinov,

По сути не было.

Сначала данные лили в буфер -- по сути временная таблица. Потом в якоря. Потом таблицу, которые SWAP PATRITION-ом загонял в конечные факты. Примерно так. Примерно это же показывал Голов, когда я с ним общался в Авито.

Якоря хороши на сущностях типа заказов, где происходит более 20 обновлений записей в процессе обработки. Ещё они хороши, где крупный справочник, вроде товаров завязан на много таблиц, типа заказы, платежи, поставки, остатки, цены, планы и т.п.

Если вы покопаетесь в статьях основателя, то там есть исследование, что эффект от якорей начинает проявляться лишь после уровня в поллимона записей.

Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129403
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin

Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом.

случайно одна нода не ключ к успеху тут ? если бы этот миллиард джойнов пришлось бы делать на нескольких узлах - не вылезли бы сложности с тусованием данных для джойнов по нодам ?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129416
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
a_voronin

Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом.

случайно одна нода не ключ к успеху тут ? если бы этот миллиард джойнов пришлось бы делать на нескольких узлах - не вылезли бы сложности с тусованием данных для джойнов по нодам ?


Если вы умеете разрабатывать правильный код на массивно-параллельных базах, то не вылезут. Если не умеете, то вылезут.

Но главный принцип там простой -- справочники клонируются на все ноды, факты шардируются по всем нодам, но иногда требуется соединить что-то вперемешку и тогда будет перемешивание. Но это редко.

Якорная модель на массивно параллельные БД ложиться хорошо. Хотя могут быть нюансы под конкретную задачу.

Для нее важны джойны. Поэтому Кликхаус плох для нее. Гринплам тоже не очень, но Голов говорит, что последняя версия уже может потянуть.

Вертика, Терадата. Вот ок.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40130300
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
s_ustinov,

По сути не было.

Сначала данные лили в буфер -- по сути временная таблица. Потом в якоря. Потом таблицу, которые SWAP PATRITION-ом загонял в конечные факты. Примерно так. Примерно это же показывал Голов, когда я с ним общался в Авито.

Думаю, тут расхождение в терминологии.

Лично мне нравится вот такая классификация “слоев”:
Stage --> Core --> Data Marts
И звезды - одна из разновидностей витрин данных.
При этом стейдж максимально близок по структуре и форматам к системам - источникам, а витрины данных удобны для пользователей.

И, разумеется, в реальных системах часть слоев может быть пропущена.
Отчеты в принципе можно строить непосредственно на 3NF / DV, хотя это и будет не очень удобно.
Точно так же можно из стейджа сразу лить данные в витрины, как Кимбал предлагает.

То есть то, что вы льете данные сразу в якоря - не делает этот слой стейджем. Большинство авторов явно указывают, что схожесть структуры данных к структуре в системах источниках (или выгрузок из них) является одним из признаков стейджа. А я как то сильно сомневаюсь, что у вас источники данные хранят в якорной модели. )))

a_voronin

Сначала данные лили в буфер -- по сути временная таблица.

Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40130334
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
s_ustinov

a_voronin

Сначала данные лили в буфер -- по сути временная таблица.

Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников.


да полностью повторяет, но stage в моем понимании данные сохраняет, а буфер нет
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40130335
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
[quote=Полковник.]Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные.
Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего?
Если вопрос ко мне, я затрудняюсь ответить почему это спикеру пришло в голову.
Господин Воронин предложил для ознакомления видео 22419419
Я высказал недоумение относительно увиденного.

Если вопрос про линк и историю, то можно просмотреть с 33:33
YouTube Video
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40130430
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
s_ustinov

пропущено...

Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников.


да полностью повторяет, но stage в моем понимании данные сохраняет, а буфер нет

Значит, в этом проекте полноценного стейджа нет. А есть слой Core с якорной моделью и витрины.
Но это - вопрос используемой терминологии.
Вам может быть удобнее использовать другое значение терминов.
Хотя приведенное мной, как мне кажется, более распространенное. Особенно учитывая тот факт, что подход ELT последнее время используется чаще, чем ETL.
...
Рейтинг: 0 / 0
24 сообщений из 99, страница 4 из 4
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Витрины данных. Что это?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали тему (1): Анонимы (1)
Читали форум (1): Анонимы (1)
Пользователи онлайн (7): Анонимы (5), Yandex Bot 1 мин., Bing Bot 1 мин.
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]