powered by simpleCommunicator - 2.0.19     © 2024 Programmizd 02
Map
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Витрины данных. Что это?
25 сообщений из 99, страница 2 из 4
Витрины данных. Что это?
    #38290219
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ДедушкаSTV_STVДоброго времени суток. Подскажите знающие люди. Для чего нужны витрины данных и что это такое? Я представляю себе следующую архитектуру (не беру в расчет теорию Инмона): источники данных - (опционально staging) - DWH - куб. Т.е. берем источники данных и перегоняем их в DWH (звезда или снежинка), а на основе DWH строим кубы. Как пишут витрины нужны чтобы разделить данные на категории. Но ведь пользователь работает с кубом, а не DWH. Я могу просто строить разные кубы на имеющемся хранилище. Для чего гнать данные в отдельные базы?если ваши пользователи работают только с кубами (кубы всего лишь инструмент для работы с данными ХД, один из...) и ваше ХД "маленькое" и вы не упёртый фанат Кимбалла то можно и без витрин...А что если поставить вопрос немного в другую крайность.
Допустим пользователи работают не только с кубами.
Но как можно оптимально по производительности загрузить данные в куб не прибегая к хранилищу по типу звезда/снежинка?

Как по мне наиболее емко и кратко подходы сформулированы здесь: http://www.citia.co.uk/content/files/50_22-184.PDF
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
   Ральф Кимбалл предлагал создавать
хранилища как набор отдельных витрин,
направленных на решение конкретных
бизнес-задач и согласованных между собой
на уровне размерностей (измерений - спра-
вочников).
   Билл Инмон, напротив, настаивал на соз-
дании хранилища основанного на норма-
лизованной модели данных, включающей в
себя сущности с атрибутами, отражающие
суть деятельности организации.
То есть Инмон отрицает звезду/снежинку.
Если необходим единый куб например из трех областей (fixed income, equities, commodities) как вы видите реализацию без использования схемы факты/измерения в хранилище?

З.Ы. Если что я не фанат Кимбалла Например текстовые факты по Инмону (DW 2.0) это очень хорошая мысль.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290356
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

Никто не отрицает звезду-снежинку. Дело в другом - нужно разделить понятия хранилище данных (как слой хранения фактов во времени) и представления данных - как слой по которому работает BI система. Второй слой - это звезда или снединка, первый слой м.б. по Инмону - фабрика данных построен или можно взять структуру Data Vault. Бизнес преобразования делаются на слое представления данных, но сами данные в ХД хранятся в первоначальном виде но в структуре отличной от структуры учетных систем - источников данных.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290379
Фотография Alex_496
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

+1
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290443
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

Действительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую.
Conformed dimensions shared between facts выглядит действительно несколько геморно.
Мне попадались legacy системы, объединенные в одну, но в них измерения явно не были согласованными.
Тогда возникает вопрос использует ли кто-то подход Кимбалла в более менее-чистом виде.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290588
brig_2000
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
dbms_photoshop,

я не большой теоретик. Данный вопрос изучал больше в целях ответов на собеседованиях, потому как предпочитаю реальный опыт, привязанный к определенным инструментам, чистой теории.

Как я понял и Полковник написал, хранилище по Инмону - это информационное отражение деятельности предприятия. Идеально, если оно планируется до начала работы предприятия (то есть такая мини-ерп система только для хранения данных в форматах быстрого доступа к ним). При этом тратится большое количество времени на проектирование структуры, етл-процессов, но в дальнейшем его легче поддерживать. Уже из этого хранилища строятся витрины под нужды департаментов предприятия.

Хранилище по Кимбалу - это постоянно изменяющаяся структура под нужды департаментов предприятия на данных уже работающих учетных систем. При этом время на реализацию определенного требования затрачивается меньше, но труднее сопровождение такого хранилища.

Примером подхода по Кимбалу является подход компании Microsoft в своих BI/OLAP/ETL инструментах.

И большинство реализаций BI приложений сейчас ближе к Кимбалу, чем к Инмону в связи с более быстрой текущей отдачей.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38290828
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
brig_2000,

В целом вы правы, но ХД необязательно строить до... чаще строят после и оно действительно отражает именно деятельность предприятия.

ХД по К. с одной стороны вроде бы замечательная штука, но дорогая в плане реинжинеринга т.е. если вдруг вы поняли что полгода считали не так, и в первоисточнике данных уже нет, то пересчитать эти полгода будет проблемой. ХД по К хранит обработанные данные по правилам бизнес-анализа т.е - грубый пример - сначала сказали считать среднее ка сумму крайних деленное пополам, потом вдруг сказали что это среднее сумма всех обектов деленное на кол-во, потом подумали и сказали не не так, надо по другому - дырки в данных заполняются предыдущими значениями, потом все складывается и делится на общее кол-во объектов, при этом сами объекты (цифры) нужно сдвинуть на один день вперед.

Или вот мой случай - в SWIFT поле, отвечающее за дату исходящего остатка пред. выписки банка, его нам не дали нифига, дали другое поле, котор. на самом деле обозначает дату последней выписки. Данные считали не верно долго - искали битые выписки и дырки в остатках по счетам, а поскольку изначально не было определено откуда их брать и брать это поле из выписки сказали вообще не нужно (этого поля в ХД по К.нет как такового вообще) - ж-па. В структуре И. и DV это поле было бы полюбому потому как принято туда грузить все надо сейчас или не надо... потом в витрину заберут то, что нужно сейчас для отчетов и пересчитают в витрине так как нужно.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38291048
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
JuriiТема hadoop для меня близка, я этими разработками занимался с прошлого века ;)
С позапрошлого!
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38291577
Фотография Apex
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshopДействительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую.

Ну, я бы сказал, что архитектурный подход на самом деле у обоих один (если внимательно присмотреться), а именно: построить согласованную модель для детализированных данных, основанную на процессах предприятия, а не на требованиях к отчетности конкретных департаментов. Просто Кимбалл верит в то, что для хранения детальных согласованных данных можно успешно использовать тот же прием моделирования, что и для отчетности (витрин) - звезду. И в соответствии с его архитектурой - Enterprise Bus, на этапе анализа требований строится та самая Enterprise Bus Matrix, которая в свою очередь и является отправным документом к созданию согласованных через общие измерения витрин. Т.е. в итоге получается, что и в случае Кимбалловского подхода необходима длительная фаза подробного анализа процессов предприятия, иначе витрины почти всегда получаются несогласованными (вот это поворот!).
Хотя они и так почти всегда получаются несогласованными, потому что мы живем не в идеальном мире, и провести на практике всеобъемлющий анализ невозможно. А даже если и возможно, то его результаты быстро устрареют. И вот тут как раз вылазят все недостатки техники моделирования витрин - Dimension Modeling, она очень негибкая, монолитная. Изменять и расширять модели данных, построенные в соответствии с правилами 3NF все-таки проще. Такое вот мое ИМХО.

dbms_photoshopConformed dimensions shared between facts выглядит действительно несколько геморно.

Оно выглядит точно так же, как и у Инмона - длительная фаза анализа и моделирования. Если бы требования не менялись и хранилища не развивались, то идея Кимбалла работала бы на ура - действительно, зачем иметь промежуточный слой хранения, если хранить можно там же, где происходит анализ?

dbms_photoshopМне попадались legacy системы, объединенные в одну, но в них измерения явно не были согласованными.

На предыдущей работе видел систему, которая предоставляла аналитику партнерам, этакий selfservice BI. Вот там ХД было разработано по Кимбаллу. Мы хотели использовать его как основу для нашего проекта, т.к. процентов 70 данных там уже было. Однако его пришлось бы дорабатывать, т.к. кое-чего все таки не хватало. Но владельцы система делать это не разрешили, т.к. пришлось бы затронуть кое-какие из существующих фактовых таблиц, а система была очень критичной для партнеров. В итоге пришлось рядом делать свое ХД. И кстати тоже по Кимбаллу (жизнь людей ничему не учит).

dbms_photoshopТогда возникает вопрос использует ли кто-то подход Кимбалла в более менее-чистом виде.
Ну вот выше был пример: изолировання задача, согласованный с партнерами набор показателей, требования не менялись годами.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395212
Ares_ekb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А всё-таки, зачем все эти звезды, снежинки? В какой ситуации они могут быть лучше MOLAP?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395277
simlpeman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ares_ekb,

нужно не только почитать умные книги практиков и блоги гуру, но и на себе испытать, работая с опытными товарищами,
что такое ХД, витрины, кубы - и самое, главное по требованиям бизнеса заниматься разработкой отчетов.
Вот тогда и станет ясно, где лучше витрины, где OLAP рулит
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395283
Ares_ekb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
simlpeman,

а вы сами звезды/снежинки используете где-нибудь?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395290
simlpeman
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
еще как использую!

попробуйте-ка на уровне детальных данных сложные вычисления с мудрёной логикой вычислений - в кубах ЛЮБЫХ платформ посчитать - и поймете, что здесь рулят SQL-query или их совокупность в процедурах
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395394
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ares_ekbА всё-таки, зачем все эти звезды, снежинки? В какой ситуации они могут быть лучше MOLAP?Зачем сравнивать теплое с мягким? То есть подход к дизайну хранилища и реализации OLAP.

Для затравки, подумайте над тем откуда проще и быстрее грузить данные в куб: из базы, спроектированной по третьей нормальной форме или из звезды?
А если еще добавляется приближенное к real time обновление куба по process add с необходимостью понимать что собственно надо передать в add.
simlpemanеще как использую!

попробуйте-ка на уровне детальных данных сложные вычисления с мудрёной логикой вычислений - в кубах ЛЮБЫХ платформ посчитать - и поймете, что здесь рулят SQL-query или их совокупность в процедурахНу в том же Оракле SQL применим и к ROLAP и к MOLAP. 13928604
А вот пример логики, где пришлось бы прибегнуть к процедуре интересно было бы услышать.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395435
Ares_ekb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

я думаю, что хранилище должно быть в 5-ой, а в идеале в 6-ой НФ :) 6-ую НФ я конечно никогда не делал, но есть мнение, и я с ним согласен, что на ней проще, лучше делать кубы.

Хотя у меня никогда не было больших кубов или real time требований. Самый большой куб - 250 000 записей в сутки.

А такой глупый вопрос... Если я делаю, например, таблицу снимков состояния чего-нибудь на момент времени. Или есть, например, последовательность событий и я делаю представление типа (предыдущее_событие, текущее_событие). Это я делаю звезду/снежинку?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395626
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ares_ekbА такой глупый вопрос... Если я делаю, например, таблицу снимков состояния чего-нибудь на момент времени. Или есть, например, последовательность событий и я делаю представление типа (предыдущее_событие, текущее_событие). Это я делаю звезду/снежинку?
это у тебя таблица фактов - snapshot fact table. Во втором случае temporal snapshot fact table.
если есть денормализованные измерения одного уровня - то звезда. Если многоуровневые - снежинка.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395633
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Apexdbms_photoshopДействительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую.

Ну, я бы сказал, что архитектурный подход на самом деле у обоих один (если внимательно присмотреться), а именно: построить согласованную модель для детализированных данных, основанную на процессах предприятия, а не на требованиях к отчетности конкретных департаментов.

Именно. Это собственно ключ! Согласованная модель. Правда вот цитата из Кимбала -
http://citforum.ru/gazeta/47/
"Кимбалл считает, что усилия, затрачиваемые на разработку корпоративной модели данных, только задерживают работу над хранилищем данных. Лучше основывать модель хранилища данных на реальных источниках данных, заранее рассчитывая на то, что при выполнении процедуры ETL будут выявляться ошибки и несоответствие данных"
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38395944
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ХД в 6-й нормальной форме - ANCHOR
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38396154
Ares_ekb
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

ага, я видел эту штуку. Мы делаем сейчас что-то похожее :)
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38396214
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ares_ekb,

Ну я до такого еще не дошел :). Строю на Data Vault, борюсь с любителями Кимбола :) внутри компании. Кусочек реализованного ХД (примерно 1\5) по DV, потихоньку расширяю его в стороны.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #38396229
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кстати о витринах. Сейчас забугром есть мысли о том, что бы использовать в качестве витрин - движки больших данных (big table), прочитал тут на днях о проекте в котором в качестве ХД - реляционная база , витрина - колоночная база в которой каждая витрина - одна таблица.
...
Рейтинг: 0 / 0
Период между сообщениями больше года.
Витрины данных. Что это?
    #40124798
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Строю на Data Vault, борюсь с любителями Кимбола :) внутри компании. Кусочек реализованного ХД (примерно 1\5) по DV, потихоньку расширяю его в стороны.
Чем закончилась борьба и построение по прошествию лет?

Еще интересно какие ключевые отличия DV от 3NF?
После столкновения с хранилищем сделанным по DV, изучения литературы и общения с приверженцами этой идеологии просветление ко мне не пришло.
Такое впечатление, что давайте вместо Master, Detail, Link говорить Hub, Satellite, Link и назовём это новым подходом!
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124802
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.
Кстати о витринах. Сейчас забугром есть мысли о том, что бы использовать в качестве витрин - движки больших данных (big table), прочитал тут на днях о проекте в котором в качестве ХД - реляционная база , витрина - колоночная база в которой каждая витрина - одна таблица.
На это можно посмотреть под другим углом не приплетая big data как технологию.

Сильно упрощая: Инмон предлагает между стеджингом и звездой втулить 3NF, а Кимбалл предлает лить напрямую из стейджинга в звезду.
По прошествию лет я так и не увидел особых преимуществ добавления еще одного слоя в виде 3NF.
Это не улучшает качество данных, не добавляет ясности, не ускоряет расширение звезды при добавлении новых требований или данных, а только наоборот усложнят процессы, но сейчас не об этом.

Так вот, для стандартизации ETL заливающего в звезду можно между стейджингом и звездой добавить одну широкую абсолютно денормализированную таблицу со всеми фактами и атрибутами всех измерений
(в Оракле, таблица с 1000 колонок может создать некоторые сложности, но это технические нюансы и, конечно, есть более подходящие для этого движки)
На основании этой единой таблицы можно написать универсальный загрузчик заливки данных в звезду.

Вот такой дополнительный слой разделяет процессы консолидации данных и заливки в звезду. Весьма хорошо зарекомендовал себя на практике.
Практические преимущества 3NF (или DW) между стеджингом и звездой остаются для меня неясны.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124807
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
dbms_photoshop,

Нормально все закончилось, построил пару, тройку хранилищ данных по DV 2.0, последнее в 2017 году, с тех пор больше ХД и BI не занимаюсь. Весной прошлого года перед самым карантином приглашали меня поработать с этой темой в Данию, я не поехал, время от времени тема эта всплывает.
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124813
Фотография dbms_photoshop
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

В чём суть и преимущества DV 2.0?
...
Рейтинг: 0 / 0
Витрины данных. Что это?
    #40124818
Полковник.
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Полковник.,

Весной позапрошлого, в 20 м, конечно.
...
Рейтинг: 0 / 0
25 сообщений из 99, страница 2 из 4
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Витрины данных. Что это?
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали тему (0):
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]