powered by simpleCommunicator - 2.0.18     © 2024 Programmizd 02
Map
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Витрины данных. Что это?
99 сообщений из 99, показаны все 4 страниц
Витрины данных. Что это?
    #38240754
STV_STV
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Доброго времени суток. Подскажите знающие люди. Для чего нужны витрины данных и что это такое? Я представляю себе следующую архитектуру (не беру в расчет теорию Инмона): источники данных - (опционально staging) - DWH - куб. Т.е. берем источники данных и перегоняем их в DWH (звезда или снежинка), а на основе DWH строим кубы. Как пишут витрины нужны чтобы разделить данные на категории. Но ведь пользователь работает с кубом, а не DWH. Я могу просто строить разные кубы на имеющемся хранилище. Для чего гнать данные в отдельные базы?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38240771
soulsurfer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Для начала представьте себе, что есть хранилища данных без кубов ;)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38240773
STV_STV
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
soulsurferДля начала представьте себе, что есть хранилища данных без кубов ;)
И какой от них толк?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38240774
soulsurfer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
STV_STVsoulsurferДля начала представьте себе, что есть хранилища данных без кубов ;)
И какой от них толк?
Данные хранить, блин
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38240777
Фотография ssas12345
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ну если у вас stage area опционально, то вам и витрины не нужны.
А чо - все только с кубами работают, ну-ну.

Может сначала пороху фронтового понюхаете в подаванах в больших компаниях, статьи практиков поштудируете, сами подумаете.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38240821
Alexander Ryndin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
STV_STV,

Jurii, залогинься. Мы тебя узнали ;)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38240831
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Alexander Ryndin:

Jurii, залогинься. Мы тебя узнали ;)

Перепутать меня с г-ном STV_STV могут только те, кто не использует Data Mining ;)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38240938
Фотография ssas12345
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
о, ...ять, еще один датамайнер
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241085
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii,
вот и настал конец data mining в россии, про него узнал аж юрий (с маленькой буквы). Все со страхом ожидают, когда юрий (с маленькой буквы) узнает про целевой маркетинг, R, hadoop и.т.д. Окажется что всё можно было сделать на когносе, а все кто делал не так профнепригодны.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241133
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 loki1984:

вот и настал конец data mining в россии, про него узнал аж юрий (с маленькой буквы).

Ну если Вы не уважаете себя и коллег по форуму, когда пишете свое и их имя с маленькой буквы, то уважайте хотя бы Россию и Когнос ;)
Про Data Mining (в системе Cognos) я узнал еще в прошлом веке, когда Вы вероятно еще были школьником.

Все со страхом ожидают, когда юрий (с маленькой буквы) узнает про целевой маркетинг, R, hadoop и.т.д. Окажется что всё можно было сделать на когносе, а все кто делал не так профнепригодны.

Про целевой маркетинг я также узнал в прошлом веке, в университете ;) В тему R я глубоко не вникал, предпочитаю использовать коммерческое ПО, где меньше трудозатрат для решения задач. Тема hadoop для меня близка, я этими разработками занимался с прошлого века ;)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241153
Фотография ssas12345
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
очередной пеар засчитан
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241188
STV_STV
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Господа, а по теме можно?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241191
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
STV_STVДоброго времени суток. Подскажите знающие люди. Для чего нужны витрины данных и что это такое? Я представляю себе следующую архитектуру (не беру в расчет теорию Инмона): источники данных - (опционально staging) - DWH - куб. Т.е. берем источники данных и перегоняем их в DWH (звезда или снежинка), а на основе DWH строим кубы. Как пишут витрины нужны чтобы разделить данные на категории. Но ведь пользователь работает с кубом, а не DWH. Я могу просто строить разные кубы на имеющемся хранилище. Для чего гнать данные в отдельные базы?если ваши пользователи работают только с кубами (кубы всего лишь инструмент для работы с данными ХД, один из...) и ваше ХД "маленькое" и вы не упёртый фанат Кимбалла то можно и без витрин...
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241193
loki1984
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii2 loki1984:

Про целевой маркетинг я также узнал в прошлом веке, в университете ;) В тему R я глубоко не вникал, предпочитаю использовать коммерческое ПО, где меньше трудозатрат для решения задач. Тема hadoop для меня близка, я этими разработками занимался с прошлого века ;)

В таком случае я приветствую внезапно найденного основателя и автора hadoop. Получается юрий с маленькой буквы(tm) начал заниматься hadoop'ом на 10 лет раньше чем его начали делать в yahoo. Снимаю шляпу ;-)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241203
vmarch
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
STV_STV,

из кубиков конструкторы состоят. Но бывают конструкторы для детей постарше - например с гайками и железными деталями.
Существует целый класс БИ-решений, способных работать без кубов.

По теме правда на аглицком: http://en.wikipedia.org/wiki/Data_mart
A data mart is the access layer of the data warehouse environment that is used to get data out to the users. The data mart is a subset of the data warehouse that is usually oriented to a specific business line or team. Data marts are small slices of the data warehouse
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241264
soulsurfer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
По теме: куб - это в принципе тоже витрина данных.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241279
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 По теме: куб - это в принципе тоже витрина данных.

В куб не всегда можно положить все детальные данные. И куб не очень заточен на отчеты, где нужно задавать период вычисления с даты1 по дату2, или когда в отчетах используются неаддитивные показатели, и т.п. Поэтому кроме кубов полезно иметь реляционные таблицы (хранилище или витрины данных).
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241304
soulsurfer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Юрий, вам показать куб с неаддитивными показателями? ;)
И valid_from - valid_to тоже в кубах можно сделать.

Не несите чушь.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241406
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 soulsurfer:

Юрий, вам показать куб с неаддитивными показателями? ;)
И valid_from - valid_to тоже в кубах можно сделать.


Я часто делаю кубы с неаддитивными показателями. Но бывают случаи, когда задачи решаю без кубов. Типа посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2. Это в кубе сделать непросто, и на реляционных данных работать будет быстрее.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241408
Фотография ssas12345
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну в че-то юрий с маленькой буквы(tm) прав (подсмотрел наверное :)
есть случаи, когда эффективнее делать отчет-запросы от реляционных таблиц ДВХ, а не от кубов.

юрий с маленькой буквы(tm) не несет чушь, он самоутверждается, пеарится,
потешая труженников аналITического тыла.
Не сегодня-завтра взлетит на уровень Дмитрия Нанотольича и тагда все участники SQL.RU/OLAP&DWH захочут с ним дружить
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241414
Фотография ssas12345
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Juriiпосчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2...Это в кубе сделать непросто...


улыбнуло :)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241453
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 ssas12345:

посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2...Это в кубе сделать непросто...
улыбнуло :)


А вот я не вижу ничего смешного. В данном случае расчет идет на листовом уровне, без использования агрегатов, и кубы тут не помогут.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241502
kiloolik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
JuriiТипа посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2. Это в кубе сделать непросто, и на реляционных данных работать будет быстрее.


Да ну?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241529
Voyager_lan
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii2 ssas12345:

посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2...Это в кубе сделать непросто...
улыбнуло :)


А вот я не вижу ничего смешного. В данном случае расчет идет на листовом уровне, без использования агрегатов, и кубы тут не помогут.

Это как на это посмотреть.
Можно сделать ROLAP-куб и в качестве источника колоночную СУБД. Если руки прямые, то будет все будет летать и будет гибкость конструктора для ad-hoc
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38241563
Фотография ssas12345
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii2 ssas12345:

посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2...Это в кубе сделать непросто...
улыбнуло :)


А вот я не вижу ничего смешного. В данном случае расчет идет на листовом уровне, без использования агрегатов, и кубы тут не помогут.

ну если в Когносовых, сделанных мышкой за 2 часа, то видимо даааа
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290219
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ДедушкаSTV_STVДоброго времени суток. Подскажите знающие люди. Для чего нужны витрины данных и что это такое? Я представляю себе следующую архитектуру (не беру в расчет теорию Инмона): источники данных - (опционально staging) - DWH - куб. Т.е. берем источники данных и перегоняем их в DWH (звезда или снежинка), а на основе DWH строим кубы. Как пишут витрины нужны чтобы разделить данные на категории. Но ведь пользователь работает с кубом, а не DWH. Я могу просто строить разные кубы на имеющемся хранилище. Для чего гнать данные в отдельные базы?если ваши пользователи работают только с кубами (кубы всего лишь инструмент для работы с данными ХД, один из...) и ваше ХД "маленькое" и вы не упёртый фанат Кимбалла то можно и без витрин...А что если поставить вопрос немного в другую крайность.
Допустим пользователи работают не только с кубами.
Но как можно оптимально по производительности загрузить данные в куб не прибегая к хранилищу по типу звезда/снежинка?

Как по мне наиболее емко и кратко подходы сформулированы здесь: http://www.citia.co.uk/content/files/50_22-184.PDF
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
   Ральф Кимбалл предлагал создавать
хранилища как набор отдельных витрин,
направленных на решение конкретных
бизнес-задач и согласованных между собой
на уровне размерностей (измерений - спра-
вочников).
   Билл Инмон, напротив, настаивал на соз-
дании хранилища основанного на норма-
лизованной модели данных, включающей в
себя сущности с атрибутами, отражающие
суть деятельности организации.
То есть Инмон отрицает звезду/снежинку.
Если необходим единый куб например из трех областей (fixed income, equities, commodities) как вы видите реализацию без использования схемы факты/измерения в хранилище?

З.Ы. Если что я не фанат Кимбалла Например текстовые факты по Инмону (DW 2.0) это очень хорошая мысль.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290356
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

Никто не отрицает звезду-снежинку. Дело в другом - нужно разделить понятия хранилище данных (как слой хранения фактов во времени) и представления данных - как слой по которому работает BI система. Второй слой - это звезда или снединка, первый слой м.б. по Инмону - фабрика данных построен или можно взять структуру Data Vault. Бизнес преобразования делаются на слое представления данных, но сами данные в ХД хранятся в первоначальном виде но в структуре отличной от структуры учетных систем - источников данных.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290379
Фотография Alex_496
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

+1
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290443
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

Действительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую.
Conformed dimensions shared between facts выглядит действительно несколько геморно.
Мне попадались legacy системы, объединенные в одну, но в них измерения явно не были согласованными.
Тогда возникает вопрос использует ли кто-то подход Кимбалла в более менее-чистом виде.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290588
brig_2000
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
dbms_photoshop,

я не большой теоретик. Данный вопрос изучал больше в целях ответов на собеседованиях, потому как предпочитаю реальный опыт, привязанный к определенным инструментам, чистой теории.

Как я понял и Полковник написал, хранилище по Инмону - это информационное отражение деятельности предприятия. Идеально, если оно планируется до начала работы предприятия (то есть такая мини-ерп система только для хранения данных в форматах быстрого доступа к ним). При этом тратится большое количество времени на проектирование структуры, етл-процессов, но в дальнейшем его легче поддерживать. Уже из этого хранилища строятся витрины под нужды департаментов предприятия.

Хранилище по Кимбалу - это постоянно изменяющаяся структура под нужды департаментов предприятия на данных уже работающих учетных систем. При этом время на реализацию определенного требования затрачивается меньше, но труднее сопровождение такого хранилища.

Примером подхода по Кимбалу является подход компании Microsoft в своих BI/OLAP/ETL инструментах.

И большинство реализаций BI приложений сейчас ближе к Кимбалу, чем к Инмону в связи с более быстрой текущей отдачей.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290828
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
brig_2000,

В целом вы правы, но ХД необязательно строить до... чаще строят после и оно действительно отражает именно деятельность предприятия.

ХД по К. с одной стороны вроде бы замечательная штука, но дорогая в плане реинжинеринга т.е. если вдруг вы поняли что полгода считали не так, и в первоисточнике данных уже нет, то пересчитать эти полгода будет проблемой. ХД по К хранит обработанные данные по правилам бизнес-анализа т.е - грубый пример - сначала сказали считать среднее ка сумму крайних деленное пополам, потом вдруг сказали что это среднее сумма всех обектов деленное на кол-во, потом подумали и сказали не не так, надо по другому - дырки в данных заполняются предыдущими значениями, потом все складывается и делится на общее кол-во объектов, при этом сами объекты (цифры) нужно сдвинуть на один день вперед.

Или вот мой случай - в SWIFT поле, отвечающее за дату исходящего остатка пред. выписки банка, его нам не дали нифига, дали другое поле, котор. на самом деле обозначает дату последней выписки. Данные считали не верно долго - искали битые выписки и дырки в остатках по счетам, а поскольку изначально не было определено откуда их брать и брать это поле из выписки сказали вообще не нужно (этого поля в ХД по К.нет как такового вообще) - ж-па. В структуре И. и DV это поле было бы полюбому потому как принято туда грузить все надо сейчас или не надо... потом в витрину заберут то, что нужно сейчас для отчетов и пересчитают в витрине так как нужно.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38291048
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
JuriiТема hadoop для меня близка, я этими разработками занимался с прошлого века ;)
С позапрошлого!
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38291577
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopДействительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую.

Ну, я бы сказал, что архитектурный подход на самом деле у обоих один (если внимательно присмотреться), а именно: построить согласованную модель для детализированных данных, основанную на процессах предприятия, а не на требованиях к отчетности конкретных департаментов. Просто Кимбалл верит в то, что для хранения детальных согласованных данных можно успешно использовать тот же прием моделирования, что и для отчетности (витрин) - звезду. И в соответствии с его архитектурой - Enterprise Bus, на этапе анализа требований строится та самая Enterprise Bus Matrix, которая в свою очередь и является отправным документом к созданию согласованных через общие измерения витрин. Т.е. в итоге получается, что и в случае Кимбалловского подхода необходима длительная фаза подробного анализа процессов предприятия, иначе витрины почти всегда получаются несогласованными (вот это поворот!).
Хотя они и так почти всегда получаются несогласованными, потому что мы живем не в идеальном мире, и провести на практике всеобъемлющий анализ невозможно. А даже если и возможно, то его результаты быстро устрареют. И вот тут как раз вылазят все недостатки техники моделирования витрин - Dimension Modeling, она очень негибкая, монолитная. Изменять и расширять модели данных, построенные в соответствии с правилами 3NF все-таки проще. Такое вот мое ИМХО.

dbms_photoshopConformed dimensions shared between facts выглядит действительно несколько геморно.

Оно выглядит точно так же, как и у Инмона - длительная фаза анализа и моделирования. Если бы требования не менялись и хранилища не развивались, то идея Кимбалла работала бы на ура - действительно, зачем иметь промежуточный слой хранения, если хранить можно там же, где происходит анализ?

dbms_photoshopМне попадались legacy системы, объединенные в одну, но в них измерения явно не были согласованными.

На предыдущей работе видел систему, которая предоставляла аналитику партнерам, этакий selfservice BI. Вот там ХД было разработано по Кимбаллу. Мы хотели использовать его как основу для нашего проекта, т.к. процентов 70 данных там уже было. Однако его пришлось бы дорабатывать, т.к. кое-чего все таки не хватало. Но владельцы система делать это не разрешили, т.к. пришлось бы затронуть кое-какие из существующих фактовых таблиц, а система была очень критичной для партнеров. В итоге пришлось рядом делать свое ХД. И кстати тоже по Кимбаллу (жизнь людей ничему не учит).

dbms_photoshopТогда возникает вопрос использует ли кто-то подход Кимбалла в более менее-чистом виде.
Ну вот выше был пример: изолировання задача, согласованный с партнерами набор показателей, требования не менялись годами.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395212
Ares_ekb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А всё-таки, зачем все эти звезды, снежинки? В какой ситуации они могут быть лучше MOLAP?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395277
simlpeman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ares_ekb,

нужно не только почитать умные книги практиков и блоги гуру, но и на себе испытать, работая с опытными товарищами,
что такое ХД, витрины, кубы - и самое, главное по требованиям бизнеса заниматься разработкой отчетов.
Вот тогда и станет ясно, где лучше витрины, где OLAP рулит
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395283
Ares_ekb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
simlpeman,

а вы сами звезды/снежинки используете где-нибудь?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395290
simlpeman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
еще как использую!

попробуйте-ка на уровне детальных данных сложные вычисления с мудрёной логикой вычислений - в кубах ЛЮБЫХ платформ посчитать - и поймете, что здесь рулят SQL-query или их совокупность в процедурах
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395394
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ares_ekbА всё-таки, зачем все эти звезды, снежинки? В какой ситуации они могут быть лучше MOLAP?Зачем сравнивать теплое с мягким? То есть подход к дизайну хранилища и реализации OLAP.

Для затравки, подумайте над тем откуда проще и быстрее грузить данные в куб: из базы, спроектированной по третьей нормальной форме или из звезды?
А если еще добавляется приближенное к real time обновление куба по process add с необходимостью понимать что собственно надо передать в add.
simlpemanеще как использую!

попробуйте-ка на уровне детальных данных сложные вычисления с мудрёной логикой вычислений - в кубах ЛЮБЫХ платформ посчитать - и поймете, что здесь рулят SQL-query или их совокупность в процедурахНу в том же Оракле SQL применим и к ROLAP и к MOLAP. 13928604
А вот пример логики, где пришлось бы прибегнуть к процедуре интересно было бы услышать.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395435
Ares_ekb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

я думаю, что хранилище должно быть в 5-ой, а в идеале в 6-ой НФ :) 6-ую НФ я конечно никогда не делал, но есть мнение, и я с ним согласен, что на ней проще, лучше делать кубы.

Хотя у меня никогда не было больших кубов или real time требований. Самый большой куб - 250 000 записей в сутки.

А такой глупый вопрос... Если я делаю, например, таблицу снимков состояния чего-нибудь на момент времени. Или есть, например, последовательность событий и я делаю представление типа (предыдущее_событие, текущее_событие). Это я делаю звезду/снежинку?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395626
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ares_ekbА такой глупый вопрос... Если я делаю, например, таблицу снимков состояния чего-нибудь на момент времени. Или есть, например, последовательность событий и я делаю представление типа (предыдущее_событие, текущее_событие). Это я делаю звезду/снежинку?
это у тебя таблица фактов - snapshot fact table. Во втором случае temporal snapshot fact table.
если есть денормализованные измерения одного уровня - то звезда. Если многоуровневые - снежинка.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395633
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apexdbms_photoshopДействительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую.

Ну, я бы сказал, что архитектурный подход на самом деле у обоих один (если внимательно присмотреться), а именно: построить согласованную модель для детализированных данных, основанную на процессах предприятия, а не на требованиях к отчетности конкретных департаментов.

Именно. Это собственно ключ! Согласованная модель. Правда вот цитата из Кимбала -
http://citforum.ru/gazeta/47/
"Кимбалл считает, что усилия, затрачиваемые на разработку корпоративной модели данных, только задерживают работу над хранилищем данных. Лучше основывать модель хранилища данных на реальных источниках данных, заранее рассчитывая на то, что при выполнении процедуры ETL будут выявляться ошибки и несоответствие данных"
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395944
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ХД в 6-й нормальной форме - ANCHOR
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38396154
Ares_ekb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

ага, я видел эту штуку. Мы делаем сейчас что-то похожее :)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38396214
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ares_ekb,

Ну я до такого еще не дошел :). Строю на Data Vault, борюсь с любителями Кимбола :) внутри компании. Кусочек реализованного ХД (примерно 1\5) по DV, потихоньку расширяю его в стороны.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38396229
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кстати о витринах. Сейчас забугром есть мысли о том, что бы использовать в качестве витрин - движки больших данных (big table), прочитал тут на днях о проекте в котором в качестве ХД - реляционная база , витрина - колоночная база в которой каждая витрина - одна таблица.
...
Рейтинг: 0 / 0
Период между сообщениями больше года.
Витрины данных. Что это?
    #40124798
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Строю на Data Vault, борюсь с любителями Кимбола :) внутри компании. Кусочек реализованного ХД (примерно 1\5) по DV, потихоньку расширяю его в стороны.
Чем закончилась борьба и построение по прошествию лет?

Еще интересно какие ключевые отличия DV от 3NF?
После столкновения с хранилищем сделанным по DV, изучения литературы и общения с приверженцами этой идеологии просветление ко мне не пришло.
Такое впечатление, что давайте вместо Master, Detail, Link говорить Hub, Satellite, Link и назовём это новым подходом!
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124802
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Кстати о витринах. Сейчас забугром есть мысли о том, что бы использовать в качестве витрин - движки больших данных (big table), прочитал тут на днях о проекте в котором в качестве ХД - реляционная база , витрина - колоночная база в которой каждая витрина - одна таблица.
На это можно посмотреть под другим углом не приплетая big data как технологию.

Сильно упрощая: Инмон предлагает между стеджингом и звездой втулить 3NF, а Кимбалл предлает лить напрямую из стейджинга в звезду.
По прошествию лет я так и не увидел особых преимуществ добавления еще одного слоя в виде 3NF.
Это не улучшает качество данных, не добавляет ясности, не ускоряет расширение звезды при добавлении новых требований или данных, а только наоборот усложнят процессы, но сейчас не об этом.

Так вот, для стандартизации ETL заливающего в звезду можно между стейджингом и звездой добавить одну широкую абсолютно денормализированную таблицу со всеми фактами и атрибутами всех измерений
(в Оракле, таблица с 1000 колонок может создать некоторые сложности, но это технические нюансы и, конечно, есть более подходящие для этого движки)
На основании этой единой таблицы можно написать универсальный загрузчик заливки данных в звезду.

Вот такой дополнительный слой разделяет процессы консолидации данных и заливки в звезду. Весьма хорошо зарекомендовал себя на практике.
Практические преимущества 3NF (или DW) между стеджингом и звездой остаются для меня неясны.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124807
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

Нормально все закончилось, построил пару, тройку хранилищ данных по DV 2.0, последнее в 2017 году, с тех пор больше ХД и BI не занимаюсь. Весной прошлого года перед самым карантином приглашали меня поработать с этой темой в Данию, я не поехал, время от времени тема эта всплывает.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124813
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

В чём суть и преимущества DV 2.0?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124818
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

Весной позапрошлого, в 20 м, конечно.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124820
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,
Возможность параллельной одновременной загрузки всех объектов ХД.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124824
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений).
Так зачем еще один слой?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124870
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,
Если тебе не нужно хранить полную историю изменений всех данных учётной системы, проводить аудит изменений, то строй звезду/снежинку
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124877
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

Для того, чтобы иметь возможность получить значения атрибутов и фактов в прошлом мне достаточно звезды.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124885
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,
Ну да, атрибутов и фактов. Но в ХД есть и другие объекты, связи например, как вы построите историю связей объектов, счетов-фактур с запросами на оплату, есть счёт-фактура к нему есть запрос на оплату, потом этот запрос на оплату удалили и создали два новых, разделив суммы счета-фактуры между ними, потом и их удалили, создали снова один запрос на оплату, как вы в своей плоской картине мира из атрибутов и фактов в звезде/снежинке покажете полную историю этого процесса? Никак.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125242
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
dbms_photoshop,

Нормально все закончилось, построил пару, тройку хранилищ данных по DV 2.0, последнее в 2017 году, с тех пор больше ХД и BI не занимаюсь. Весной прошлого года перед самым карантином приглашали меня поработать с этой темой в Данию, я не поехал, время от времени тема эта всплывает.

А чем теперь вместо ХД и BI занимаешься?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125244
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Полковник.,

В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений).
Так зачем еще один слой?

3NF нужен для единого, согласованного источника построения звёзд
чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются

так то по Кимбалу строить сразу наборы звёзд быстрее, конечно

На России все большие энтерпрайз хранилища в сторону 100 ТБ и выше для построения регулярной и управленческой отчетности делаются с общим 3NF. Ну или DV.

DV нужен для того, что он более гибкий. Там быстрее меняется изменяется схема. Чотко разделена бизнес и технологическая семантика, ты просто новые технологические блоки стандартные запихиваешь при изменениях. Это ускоряет изменение схемы.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125267
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш,

Process Mining в той его части где идёт работа с данными, системный анализ, поиск данных в источниксх, интеграция, разработка и загрузка модели данных. После меня работает бизнес-аналитик, роётся во всем этом, пытается показать бизнесу где косяки в их процессах и что нужно сделать, что бы косяки минимизировать.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125311
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

Часть работ похожа на архитектора модели данных. Но это тоже ХД и BI же, одна из его частей.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125341
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш,

Да, все сильно похоже на то, чем занимался раньше, переход не был трудным. В компании, где работаю это называют инженер-данных, хотя, это не принципиально.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125687
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Практические преимущества 3NF (или DW) между стеджингом и звездой остаются для меня неясны.


DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее.

Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными.

Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары.

Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40125828
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin,

YouTube Video
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128445
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
как вы в своей плоской картине мира из атрибутов и фактов в звезде/снежинке покажете полную историю этого процесса? Никак.
Это очень верное замечание. В звезде/снежинке хранится то, что надо для отчетности. Если для отчетности понадобится связь, то её туда можно добавить.
Если по каким-то причинам добавление в звезду не целесообразно, то можно в вонце концов связь заливать в стейджинг из оперативной базы и брать оттуда.
Этот пример никоим образом для меня не проясняет необходимость лишнего слоя в виде DV.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128455
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш
3NF нужен для единого, согласованного источника построения звёзд
чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются
Я правильно понимаю, что в дополнение к основному источнику/источникам строится некая консолидированная 3NF для разбора полётов?
Какой департамент её стоит? Может оба дружно участвуют? Или вообще некий сторонний authority занимается консолидацией?

Я допускаю, что это минимизирует риск расхождения данных в звёздах разных департаментов на основе консолидированного источника, но не исключает его.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128468
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее.
Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли.
Это вполне можно делать параллельно.
Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно.
a_voronin
Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными.
В каком смысле более омтимальными? Как предполагается пере-использовать суррогатные ключи в звезде/снежинке если гранулярность данных иная?
a_voronin
Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары.
Это что-то в духе заливки фактов когда не до конца прояснены атрибуты измерений? Интересное замечание, но я затрудняюсь придумать реальный пример.
Может быть речь про пред-заказы до поступления товаров?
a_voronin
Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения.
Вопрос про формирования stage у меня не возникает, только я выступаю за его формирования "AS IS" как поступают данные без последующего переливания в 3NF/DV.
Частота и способ обновления звезды, на мой взгляд, это отдельный вопрос от заливки в стейджинг, единственное что - её вряд ли имеет смысл обновлять чаще чем приходят данные. :)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128475
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Бумбараш
3NF нужен для единого, согласованного источника построения звёзд
чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются
Я правильно понимаю, что в дополнение к основному источнику/источникам строится некая консолидированная 3NF для разбора полётов?
Какой департамент её стоит?

департамент данных
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128530
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop

Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно.

Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно.
p.s. Ну и про LAD они тоже почему-то не в курсе
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128542
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли.
задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли"

Ivan Durak
Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно.
дело не в генерации ключа, а в идее отделения атрибутов ключа от самого ключа (если утрировать), что даёт лёгкое наращивание модели новыми атрибутами. DV имеет как плюсы, так и минусы, это инструмент, который хорош при определённых условиях.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128547
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушка
dbms_photoshop
Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли.
задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли"

Ivan Durak
Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно.
дело не в генерации ключа, а в идее отделения атрибутов ключа от самого ключа (если утрировать), что даёт лёгкое наращивание модели новыми атрибутами. DV имеет как плюсы, так и минусы, это инструмент, который хорош при определённых условиях.


не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128548
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
Полковник.,

В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений).
Так зачем еще один слой?

че за бред. LAD изобрели 20 лет назад чтобы грузить факты до измерений
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128565
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak
Дедушка
пропущено...
задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли"

пропущено...
дело не в генерации ключа, а в идее отделения атрибутов ключа от самого ключа (если утрировать), что даёт лёгкое наращивание модели новыми атрибутами. DV имеет как плюсы, так и минусы, это инструмент, который хорош при определённых условиях.


не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа

Конечно, ведь DV это по сути и есть 3NF, просто об'ект разрезан на три таблицы - ключ, связи, атрибуты.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128567
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну и добавить колонку, а потом перегрузить данные в таблицу, в которой 100 колонок и N ТБ данных очень интересное занятие да ещё и с историей, гораздо проще добавить 1 сателлит с одним атрибутом и догрузить только его.
Вообще DV - это темпоральное, или даже битемпоральное хранилище данных, придумано для хранения истории исходных систем, а не для отчётов.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128577
Фотография Дедушка
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak
не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа
суть в том, что добавление нового атрибута в DV это создание новой, отдельной таблицы для этого атрибута. И это не затрагивает уже существующие атрибуты на уровне хранения и не предполагает (в общем случае) изменения ETL для их загрузки, новый атрибут = новый, отдельный кусочек ETL.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128581
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
a_voronin
DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее.
Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли.
Это вполне можно делать параллельно.
Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно.
a_voronin
Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными.
В каком смысле более омтимальными? Как предполагается пере-использовать суррогатные ключи в звезде/снежинке если гранулярность данных иная?
a_voronin
Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары.
Это что-то в духе заливки фактов когда не до конца прояснены атрибуты измерений? Интересное замечание, но я затрудняюсь придумать реальный пример.
Может быть речь про пред-заказы до поступления товаров?
a_voronin
Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения.
Вопрос про формирования stage у меня не возникает, только я выступаю за его формирования "AS IS" как поступают данные без последующего переливания в 3NF/DV.
Частота и способ обновления звезды, на мой взгляд, это отдельный вопрос от заливки в стейджинг, единственное что - её вряд ли имеет смысл обновлять чаще чем приходят данные. :)


DV и Якорная модель это и есть stage.
Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу. Но этот принцип верен для реляционный БД, для Массивно парралельных, для Олап кубов, и т.п.
3NF не самая оптимальная структура для отчетности.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128757
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin

3NF не самая оптимальная структура для отчетности.

DV еще менее оптимальная, по любому для отчетности датамарты делать денормализованные
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128758
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Ну и добавить колонку, а потом перегрузить данные в таблицу, в которой 100 колонок и N ТБ данных очень интересное занятие да ещё и с историей

Зачем?? зачем при добавлении колонки перегружать всю таблицу??? (не важно с историей или без). Это вы сами придумали или где-то прочитали??

гораздо проще добавить 1 сателлит с одним атрибутом и догрузить только его.

одну колонку проще добавить чем одну таблицу полюбому

Вообще DV - это темпоральное, или даже битемпоральное хранилище данных, придумано для хранения истории исходных систем, а не для отчётов.
и 3nf для хранения исходных систем, для отчетов датамарты денормализованные придуманы, поверх 3нф построенные.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128837
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
[quote=a_voronin]a_voronin,

YouTube Video
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128839
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш
департамент данных
Понятно, спасибо. В ваших реалиях аргументация в пользу подолнительного слоя понятна.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128841
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Дедушка
задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли"
Я не сомневаюсь что в ваших реалиях стейджингом может называться набор дополнительных таблиц для выполнения ETL или что еще угодно, я говорил про staging data model.
Например отсюда
https://www.matillion.com/resources/blog/data-vault-vs-star-schema-vs-third-normal-form-which-data-model-to-use Staging data models

Key characteristics of staging data models are:

The model is determined by the source system
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128844
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
DV и Якорная модель это и есть stage.
Это абсолютно неверно.
Мне таки попалось относительно адекватное описание DV.
https://www.indellient.com/blog/data-vault-what-is-it-and-when-should-it-be-used/
Если влом читать цликом, то можно ознакомитсяс секцией "The Drawbacks".

a_voronin
Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу.
Это очень интересное заявление.
Можно поподробнее куда и сколько уходило времени и как здесь помог укороченный ключ.
Идеально было бы с планами запросов и затраченным временем на каждой операции плана.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128868
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak,
Зачем, зачем, вопрос какой то странный, значит было надо, была такая задачка, добавить колонку и перегрузить данные за десять лет с учётом добавленной колонки.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128906
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop


a_voronin
Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу.
Это очень интересное заявление.
Можно поподробнее куда и сколько уходило времени и как здесь помог укороченный ключ.
Идеально было бы с планами запросов и затраченным временем на каждой операции плана.


Знаете я уже вышел из того возраста, когда я ковыряюсь в планах, если и смотрю, то как правило живые планы и присматриваюсь как какой узел тикает. Обычно на смотрю на типы полей, индексы и запрос и вижу, что надо исправить. Причем в последнее время на даже на ранее неизвестных мне БД. По поводу "поподробнее куда и сколько уходило времени" -- я не вдаюсь в такие детали -- мой подход -- исправил запрос залетало. А в планах можете поковыряться сами. Мне за почти 20 лет программирования на БД это уже надоело. Как правило, когда кто-то не может оптимизировать запрос - идут ко мне.

Поэтому чем меньше ключ -- тем быстрее. Можете начать громче кричать, что в моих словах нет пруфа, что это не обоснованно, что надо обосновать ... мне это не интересно.
Замените varchar(32) на GUID -- выигрыш в 2 раза и более, на BIGINT в 4 раза и более, на INT64 в 8 раз, на INT32 в 16 раз.

Лично проверено на таких БД как MS SQL, Oracle, Vertica, GreenPlum, SAP HANA, MySQL, SSAS.

Удручает то, что часто приходится разгребать полное Г. после тех, кто не задумывался о типах полей.

Напишите A JOIN B на полях различных размеров и типов и сами для себя сделайте пруф. Посмотрите планы. У меня хватает запросов с 15-25 джойнами для оптимизации.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128910
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

молодец!!!

[youtube=https://www.youtube.com/watch?v=IZw1cB1uDts]

теперь можешь прокомментировать/проанализировать вторую часть
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128981
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные.
Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128988
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
a_voronin
DV и Якорная модель это и есть stage.
Это абсолютно неверно.
Мне таки попалось относительно адекватное описание DV.
https://www.indellient.com/blog/data-vault-what-is-it-and-when-should-it-be-used/
Если влом читать цликом, то можно ознакомитсяс секцией "The Drawbacks".


Ты сам внимательно прочитал указанную статью?

Data Vault is essentially a layer between the information mart / star schema and staging. There is some additional overhead that comes with developing this layer both in terms of ETL development and modeling. If the project is on a small scale or the project’s life is short-lived, it may not be worth pursuing a Data Vault model.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40128989
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные.
Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего?


Видимо теоретик запутался в понятиях KNOT и ANCHOR/HUB . LINK/TIE на первый как правило не историчен, на второй историчен. Мне вот тоже странно смотреть на людей, которые ни черта не имеют практического опыта в данных моделях, но начинают теоретизировать в неизвестное никуда.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129169
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
Знаете я уже вышел из того возраста, когда я ковыряюсь в планах
Мой ответ был сделан чтобы намекнуть, что даже в вырожденном случае время не будет изменяться в той же пропорции что и длина ключа.
Но мне уже предельно ясно, что содержательного диалога тут быть не могло.
a_voronin
молодец!!!

...

теперь можешь прокомментировать/проанализировать вторую часть
Стиль общения как быдло не добавляет тебе убедительности.
Сохранить лицо можно было бы как-то ответив на мои пункты или прокомментировав видео, но я понял, что это непосильная задача.
a_voronin
Ты сам внимательно прочитал указанную статью?

Data Vault is essentially a layer between the information mart / star schema and staging. There is some additional overhead that comes with developing this layer both in terms of ETL development and modeling. If the project is on a small scale or the project’s life is short-lived, it may not be worth pursuing a Data Vault model.
"DV это по сути слой между звездой и стеджингом" не эквивалентно "DV и Якорная модель это и есть stage". Я думал это предельно очевидно.
Здесь не понятно у тебя плохо с английским или с логикой, но в любом случае беспредметную дискуссию нет смысла продолжать.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129171
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные.
Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего?
Если вопрос ко мне, я затрудняюсь ответить почему это спикеру пришло в голову.
Господин Воронин предложил для ознакомления видео 22419419
Я высказал недоумение относительно увиденного.

Если вопрос про линк и историю, то можно просмотреть с 33:33
YouTube Video
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129182
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

Дело лишь в том, что у Полковника есть опыт разработки DV, а у меня якорной модели. У Голова есть опыт и того и другого. Как это вписывается в хранилище нам понятно. Мне доводилось встречаться с ними лично.

У тебя похоже знания теоретические. А твои требования, докажи, продемонстрируй. Возьми проект по DV или Якорям и реализуй сам. Тогда поймешь.

Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129263
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin

Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже.

А между якорной моделью и витринами / звездами был еще какой то слой?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129308
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin


Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже.

А где якоря вообще используются на интерпрайз уровне, кроме Авито?
Не видел нигде. Был на собесе в Авито, 5+ лет назад, спросил почему у вас якоря, какие плюсы минусы - типы мне не смогли ответить ничего. После этого подумал, что так как Авито шведская контора и якоря из Швеции, они туда как-то скочевали видимо из Скандинавии. На дракарах.
Больше нигде якорей не видел.

DV, да, сейчас самая популярная модель.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129367
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Бумбараш
a_voronin


Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже.

А где якоря вообще используются на интерпрайз уровне, кроме Авито?
Не видел нигде. Был на собесе в Авито, 5+ лет назад, спросил почему у вас якоря, какие плюсы минусы - типы мне не смогли ответить ничего. После этого подумал, что так как Авито шведская контора и якоря из Швеции, они туда как-то скочевали видимо из Скандинавии. На дракарах.
Больше нигде якорей не видел.

DV, да, сейчас самая популярная модель.


Я внедрял в Вайлдберрз и Мираторге. В последнем по имеющимся сведениям они по прежнему работают.

Был на собесе в Profi.ru уже года 3-4 назад. Там планировали делать. Есть ещё какая-то контора на западе Москвы, там тоже есть якоря на Вертике.

Время от времени вижу в вакансия требования о знании якорей.

Из Авито Голов ушел уже давно. То, что человек с кем собеседовались ничего не сказал, не значит, что их похерили. В большой конторе могут и не знать, что в соседнем отделе.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129369
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
s_ustinov,

По сути не было.

Сначала данные лили в буфер -- по сути временная таблица. Потом в якоря. Потом таблицу, которые SWAP PATRITION-ом загонял в конечные факты. Примерно так. Примерно это же показывал Голов, когда я с ним общался в Авито.

Якоря хороши на сущностях типа заказов, где происходит более 20 обновлений записей в процессе обработки. Ещё они хороши, где крупный справочник, вроде товаров завязан на много таблиц, типа заказы, платежи, поставки, остатки, цены, планы и т.п.

Если вы покопаетесь в статьях основателя, то там есть исследование, что эффект от якорей начинает проявляться лишь после уровня в поллимона записей.

Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129403
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin

Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом.

случайно одна нода не ключ к успеху тут ? если бы этот миллиард джойнов пришлось бы делать на нескольких узлах - не вылезли бы сложности с тусованием данных для джойнов по нодам ?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40129416
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
a_voronin

Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом.

случайно одна нода не ключ к успеху тут ? если бы этот миллиард джойнов пришлось бы делать на нескольких узлах - не вылезли бы сложности с тусованием данных для джойнов по нодам ?


Если вы умеете разрабатывать правильный код на массивно-параллельных базах, то не вылезут. Если не умеете, то вылезут.

Но главный принцип там простой -- справочники клонируются на все ноды, факты шардируются по всем нодам, но иногда требуется соединить что-то вперемешку и тогда будет перемешивание. Но это редко.

Якорная модель на массивно параллельные БД ложиться хорошо. Хотя могут быть нюансы под конкретную задачу.

Для нее важны джойны. Поэтому Кликхаус плох для нее. Гринплам тоже не очень, но Голов говорит, что последняя версия уже может потянуть.

Вертика, Терадата. Вот ок.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40130300
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
s_ustinov,

По сути не было.

Сначала данные лили в буфер -- по сути временная таблица. Потом в якоря. Потом таблицу, которые SWAP PATRITION-ом загонял в конечные факты. Примерно так. Примерно это же показывал Голов, когда я с ним общался в Авито.

Думаю, тут расхождение в терминологии.

Лично мне нравится вот такая классификация “слоев”:
Stage --> Core --> Data Marts
И звезды - одна из разновидностей витрин данных.
При этом стейдж максимально близок по структуре и форматам к системам - источникам, а витрины данных удобны для пользователей.

И, разумеется, в реальных системах часть слоев может быть пропущена.
Отчеты в принципе можно строить непосредственно на 3NF / DV, хотя это и будет не очень удобно.
Точно так же можно из стейджа сразу лить данные в витрины, как Кимбал предлагает.

То есть то, что вы льете данные сразу в якоря - не делает этот слой стейджем. Большинство авторов явно указывают, что схожесть структуры данных к структуре в системах источниках (или выгрузок из них) является одним из признаков стейджа. А я как то сильно сомневаюсь, что у вас источники данные хранят в якорной модели. )))

a_voronin

Сначала данные лили в буфер -- по сути временная таблица.

Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40130334
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
s_ustinov

a_voronin

Сначала данные лили в буфер -- по сути временная таблица.

Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников.


да полностью повторяет, но stage в моем понимании данные сохраняет, а буфер нет
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40130335
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop
[quote=Полковник.]Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные.
Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего?
Если вопрос ко мне, я затрудняюсь ответить почему это спикеру пришло в голову.
Господин Воронин предложил для ознакомления видео 22419419
Я высказал недоумение относительно увиденного.

Если вопрос про линк и историю, то можно просмотреть с 33:33
YouTube Video
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40130430
s_ustinov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
a_voronin
s_ustinov

пропущено...

Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников.


да полностью повторяет, но stage в моем понимании данные сохраняет, а буфер нет

Значит, в этом проекте полноценного стейджа нет. А есть слой Core с якорной моделью и витрины.
Но это - вопрос используемой терминологии.
Вам может быть удобнее использовать другое значение терминов.
Хотя приведенное мной, как мне кажется, более распространенное. Особенно учитывая тот факт, что подход ELT последнее время используется чаще, чем ETL.
...
Рейтинг: 0 / 0
99 сообщений из 99, показаны все 4 страниц
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Витрины данных. Что это?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали тему (1): Анонимы (1)
Читали форум (1): Анонимы (1)
Пользователи онлайн (7): Анонимы (5), Yandex Bot 1 мин., Bing Bot 4 мин.
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]