|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Доброго времени суток. Подскажите знающие люди. Для чего нужны витрины данных и что это такое? Я представляю себе следующую архитектуру (не беру в расчет теорию Инмона): источники данных - (опционально staging) - DWH - куб. Т.е. берем источники данных и перегоняем их в DWH (звезда или снежинка), а на основе DWH строим кубы. Как пишут витрины нужны чтобы разделить данные на категории. Но ведь пользователь работает с кубом, а не DWH. Я могу просто строить разные кубы на имеющемся хранилище. Для чего гнать данные в отдельные базы? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2013, 22:42 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Для начала представьте себе, что есть хранилища данных без кубов ;) ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2013, 23:04 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
soulsurferДля начала представьте себе, что есть хранилища данных без кубов ;) И какой от них толк? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2013, 23:05 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
STV_STVsoulsurferДля начала представьте себе, что есть хранилища данных без кубов ;) И какой от них толк? Данные хранить, блин ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2013, 23:07 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
ну если у вас stage area опционально, то вам и витрины не нужны. А чо - все только с кубами работают, ну-ну. Может сначала пороху фронтового понюхаете в подаванах в больших компаниях, статьи практиков поштудируете, сами подумаете. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.04.2013, 23:08 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
STV_STV, Jurii, залогинься. Мы тебя узнали ;) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 00:30 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
2 Alexander Ryndin: Jurii, залогинься. Мы тебя узнали ;) Перепутать меня с г-ном STV_STV могут только те, кто не использует Data Mining ;) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 00:47 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
о, ...ять, еще один датамайнер ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 09:05 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Jurii, вот и настал конец data mining в россии, про него узнал аж юрий (с маленькой буквы). Все со страхом ожидают, когда юрий (с маленькой буквы) узнает про целевой маркетинг, R, hadoop и.т.д. Окажется что всё можно было сделать на когносе, а все кто делал не так профнепригодны. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 10:35 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
2 loki1984: вот и настал конец data mining в россии, про него узнал аж юрий (с маленькой буквы). Ну если Вы не уважаете себя и коллег по форуму, когда пишете свое и их имя с маленькой буквы, то уважайте хотя бы Россию и Когнос ;) Про Data Mining (в системе Cognos) я узнал еще в прошлом веке, когда Вы вероятно еще были школьником. Все со страхом ожидают, когда юрий (с маленькой буквы) узнает про целевой маркетинг, R, hadoop и.т.д. Окажется что всё можно было сделать на когносе, а все кто делал не так профнепригодны. Про целевой маркетинг я также узнал в прошлом веке, в университете ;) В тему R я глубоко не вникал, предпочитаю использовать коммерческое ПО, где меньше трудозатрат для решения задач. Тема hadoop для меня близка, я этими разработками занимался с прошлого века ;) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 11:09 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
очередной пеар засчитан ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 11:23 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Господа, а по теме можно? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 11:45 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
STV_STVДоброго времени суток. Подскажите знающие люди. Для чего нужны витрины данных и что это такое? Я представляю себе следующую архитектуру (не беру в расчет теорию Инмона): источники данных - (опционально staging) - DWH - куб. Т.е. берем источники данных и перегоняем их в DWH (звезда или снежинка), а на основе DWH строим кубы. Как пишут витрины нужны чтобы разделить данные на категории. Но ведь пользователь работает с кубом, а не DWH. Я могу просто строить разные кубы на имеющемся хранилище. Для чего гнать данные в отдельные базы?если ваши пользователи работают только с кубами (кубы всего лишь инструмент для работы с данными ХД, один из...) и ваше ХД "маленькое" и вы не упёртый фанат Кимбалла то можно и без витрин... ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 11:45 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Jurii2 loki1984: Про целевой маркетинг я также узнал в прошлом веке, в университете ;) В тему R я глубоко не вникал, предпочитаю использовать коммерческое ПО, где меньше трудозатрат для решения задач. Тема hadoop для меня близка, я этими разработками занимался с прошлого века ;) В таком случае я приветствую внезапно найденного основателя и автора hadoop. Получается юрий с маленькой буквы(tm) начал заниматься hadoop'ом на 10 лет раньше чем его начали делать в yahoo. Снимаю шляпу ;-) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 11:47 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
STV_STV, из кубиков конструкторы состоят. Но бывают конструкторы для детей постарше - например с гайками и железными деталями. Существует целый класс БИ-решений, способных работать без кубов. По теме правда на аглицком: http://en.wikipedia.org/wiki/Data_mart A data mart is the access layer of the data warehouse environment that is used to get data out to the users. The data mart is a subset of the data warehouse that is usually oriented to a specific business line or team. Data marts are small slices of the data warehouse ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 11:52 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
По теме: куб - это в принципе тоже витрина данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 12:17 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
2 По теме: куб - это в принципе тоже витрина данных. В куб не всегда можно положить все детальные данные. И куб не очень заточен на отчеты, где нужно задавать период вычисления с даты1 по дату2, или когда в отчетах используются неаддитивные показатели, и т.п. Поэтому кроме кубов полезно иметь реляционные таблицы (хранилище или витрины данных). ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 12:27 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Юрий, вам показать куб с неаддитивными показателями? ;) И valid_from - valid_to тоже в кубах можно сделать. Не несите чушь. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 12:40 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
2 soulsurfer: Юрий, вам показать куб с неаддитивными показателями? ;) И valid_from - valid_to тоже в кубах можно сделать. Я часто делаю кубы с неаддитивными показателями. Но бывают случаи, когда задачи решаю без кубов. Типа посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2. Это в кубе сделать непросто, и на реляционных данных работать будет быстрее. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 13:19 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ну в че-то юрий с маленькой буквы(tm) прав (подсмотрел наверное :) есть случаи, когда эффективнее делать отчет-запросы от реляционных таблиц ДВХ, а не от кубов. юрий с маленькой буквы(tm) не несет чушь, он самоутверждается, пеарится, потешая труженников аналITического тыла. Не сегодня-завтра взлетит на уровень Дмитрия Нанотольича и тагда все участники SQL.RU/OLAP&DWH захочут с ним дружить ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 13:20 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Juriiпосчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2...Это в кубе сделать непросто... улыбнуло :) ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 13:22 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
2 ssas12345: посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2...Это в кубе сделать непросто... улыбнуло :) А вот я не вижу ничего смешного. В данном случае расчет идет на листовом уровне, без использования агрегатов, и кубы тут не помогут. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 13:41 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
JuriiТипа посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2. Это в кубе сделать непросто, и на реляционных данных работать будет быстрее. Да ну? ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 13:54 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Jurii2 ssas12345: посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2...Это в кубе сделать непросто... улыбнуло :) А вот я не вижу ничего смешного. В данном случае расчет идет на листовом уровне, без использования агрегатов, и кубы тут не помогут. Это как на это посмотреть. Можно сделать ROLAP-куб и в качестве источника колоночную СУБД. Если руки прямые, то будет все будет летать и будет гибкость конструктора для ad-hoc ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 14:03 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Jurii2 ssas12345: посчитать, какой процент от торговых точек в каждом регионе продавал такой-то набор товаров за период с даты1 по дату2...Это в кубе сделать непросто... улыбнуло :) А вот я не вижу ничего смешного. В данном случае расчет идет на листовом уровне, без использования агрегатов, и кубы тут не помогут. ну если в Когносовых, сделанных мышкой за 2 часа, то видимо даааа ... |
|||
:
Нравится:
Не нравится:
|
|||
26.04.2013, 14:19 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
ДедушкаSTV_STVДоброго времени суток. Подскажите знающие люди. Для чего нужны витрины данных и что это такое? Я представляю себе следующую архитектуру (не беру в расчет теорию Инмона): источники данных - (опционально staging) - DWH - куб. Т.е. берем источники данных и перегоняем их в DWH (звезда или снежинка), а на основе DWH строим кубы. Как пишут витрины нужны чтобы разделить данные на категории. Но ведь пользователь работает с кубом, а не DWH. Я могу просто строить разные кубы на имеющемся хранилище. Для чего гнать данные в отдельные базы?если ваши пользователи работают только с кубами (кубы всего лишь инструмент для работы с данными ХД, один из...) и ваше ХД "маленькое" и вы не упёртый фанат Кимбалла то можно и без витрин...А что если поставить вопрос немного в другую крайность. Допустим пользователи работают не только с кубами. Но как можно оптимально по производительности загрузить данные в куб не прибегая к хранилищу по типу звезда/снежинка? Как по мне наиболее емко и кратко подходы сформулированы здесь: http://www.citia.co.uk/content/files/50_22-184.PDF Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Если необходим единый куб например из трех областей (fixed income, equities, commodities) как вы видите реализацию без использования схемы факты/измерения в хранилище? З.Ы. Если что я не фанат Кимбалла Например текстовые факты по Инмону (DW 2.0) это очень хорошая мысль. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.06.2013, 13:53 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Никто не отрицает звезду-снежинку. Дело в другом - нужно разделить понятия хранилище данных (как слой хранения фактов во времени) и представления данных - как слой по которому работает BI система. Второй слой - это звезда или снединка, первый слой м.б. по Инмону - фабрика данных построен или можно взять структуру Data Vault. Бизнес преобразования делаются на слое представления данных, но сами данные в ХД хранятся в первоначальном виде но в структуре отличной от структуры учетных систем - источников данных. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.06.2013, 14:46 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., +1 ... |
|||
:
Нравится:
Не нравится:
|
|||
07.06.2013, 14:54 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., Действительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую. Conformed dimensions shared between facts выглядит действительно несколько геморно. Мне попадались legacy системы, объединенные в одну, но в них измерения явно не были согласованными. Тогда возникает вопрос использует ли кто-то подход Кимбалла в более менее-чистом виде. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.06.2013, 15:12 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, я не большой теоретик. Данный вопрос изучал больше в целях ответов на собеседованиях, потому как предпочитаю реальный опыт, привязанный к определенным инструментам, чистой теории. Как я понял и Полковник написал, хранилище по Инмону - это информационное отражение деятельности предприятия. Идеально, если оно планируется до начала работы предприятия (то есть такая мини-ерп система только для хранения данных в форматах быстрого доступа к ним). При этом тратится большое количество времени на проектирование структуры, етл-процессов, но в дальнейшем его легче поддерживать. Уже из этого хранилища строятся витрины под нужды департаментов предприятия. Хранилище по Кимбалу - это постоянно изменяющаяся структура под нужды департаментов предприятия на данных уже работающих учетных систем. При этом время на реализацию определенного требования затрачивается меньше, но труднее сопровождение такого хранилища. Примером подхода по Кимбалу является подход компании Microsoft в своих BI/OLAP/ETL инструментах. И большинство реализаций BI приложений сейчас ближе к Кимбалу, чем к Инмону в связи с более быстрой текущей отдачей. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.06.2013, 16:12 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
brig_2000, В целом вы правы, но ХД необязательно строить до... чаще строят после и оно действительно отражает именно деятельность предприятия. ХД по К. с одной стороны вроде бы замечательная штука, но дорогая в плане реинжинеринга т.е. если вдруг вы поняли что полгода считали не так, и в первоисточнике данных уже нет, то пересчитать эти полгода будет проблемой. ХД по К хранит обработанные данные по правилам бизнес-анализа т.е - грубый пример - сначала сказали считать среднее ка сумму крайних деленное пополам, потом вдруг сказали что это среднее сумма всех обектов деленное на кол-во, потом подумали и сказали не не так, надо по другому - дырки в данных заполняются предыдущими значениями, потом все складывается и делится на общее кол-во объектов, при этом сами объекты (цифры) нужно сдвинуть на один день вперед. Или вот мой случай - в SWIFT поле, отвечающее за дату исходящего остатка пред. выписки банка, его нам не дали нифига, дали другое поле, котор. на самом деле обозначает дату последней выписки. Данные считали не верно долго - искали битые выписки и дырки в остатках по счетам, а поскольку изначально не было определено откуда их брать и брать это поле из выписки сказали вообще не нужно (этого поля в ХД по К.нет как такового вообще) - ж-па. В структуре И. и DV это поле было бы полюбому потому как принято туда грузить все надо сейчас или не надо... потом в витрину заберут то, что нужно сейчас для отчетов и пересчитают в витрине так как нужно. ... |
|||
:
Нравится:
Не нравится:
|
|||
07.06.2013, 17:40 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
JuriiТема hadoop для меня близка, я этими разработками занимался с прошлого века ;) С позапрошлого! ... |
|||
:
Нравится:
Не нравится:
|
|||
07.06.2013, 21:28 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshopДействительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую. Ну, я бы сказал, что архитектурный подход на самом деле у обоих один (если внимательно присмотреться), а именно: построить согласованную модель для детализированных данных, основанную на процессах предприятия, а не на требованиях к отчетности конкретных департаментов. Просто Кимбалл верит в то, что для хранения детальных согласованных данных можно успешно использовать тот же прием моделирования, что и для отчетности (витрин) - звезду. И в соответствии с его архитектурой - Enterprise Bus, на этапе анализа требований строится та самая Enterprise Bus Matrix, которая в свою очередь и является отправным документом к созданию согласованных через общие измерения витрин. Т.е. в итоге получается, что и в случае Кимбалловского подхода необходима длительная фаза подробного анализа процессов предприятия, иначе витрины почти всегда получаются несогласованными (вот это поворот!). Хотя они и так почти всегда получаются несогласованными, потому что мы живем не в идеальном мире, и провести на практике всеобъемлющий анализ невозможно. А даже если и возможно, то его результаты быстро устрареют. И вот тут как раз вылазят все недостатки техники моделирования витрин - Dimension Modeling, она очень негибкая, монолитная. Изменять и расширять модели данных, построенные в соответствии с правилами 3NF все-таки проще. Такое вот мое ИМХО. dbms_photoshopConformed dimensions shared between facts выглядит действительно несколько геморно. Оно выглядит точно так же, как и у Инмона - длительная фаза анализа и моделирования. Если бы требования не менялись и хранилища не развивались, то идея Кимбалла работала бы на ура - действительно, зачем иметь промежуточный слой хранения, если хранить можно там же, где происходит анализ? dbms_photoshopМне попадались legacy системы, объединенные в одну, но в них измерения явно не были согласованными. На предыдущей работе видел систему, которая предоставляла аналитику партнерам, этакий selfservice BI. Вот там ХД было разработано по Кимбаллу. Мы хотели использовать его как основу для нашего проекта, т.к. процентов 70 данных там уже было. Однако его пришлось бы дорабатывать, т.к. кое-чего все таки не хватало. Но владельцы система делать это не разрешили, т.к. пришлось бы затронуть кое-какие из существующих фактовых таблиц, а система была очень критичной для партнеров. В итоге пришлось рядом делать свое ХД. И кстати тоже по Кимбаллу (жизнь людей ничему не учит). dbms_photoshopТогда возникает вопрос использует ли кто-то подход Кимбалла в более менее-чистом виде. Ну вот выше был пример: изолировання задача, согласованный с партнерами набор показателей, требования не менялись годами. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.06.2013, 07:09 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
А всё-таки, зачем все эти звезды, снежинки? В какой ситуации они могут быть лучше MOLAP? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.09.2013, 19:53 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ares_ekb, нужно не только почитать умные книги практиков и блоги гуру, но и на себе испытать, работая с опытными товарищами, что такое ХД, витрины, кубы - и самое, главное по требованиям бизнеса заниматься разработкой отчетов. Вот тогда и станет ясно, где лучше витрины, где OLAP рулит ... |
|||
:
Нравится:
Не нравится:
|
|||
12.09.2013, 21:19 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
simlpeman, а вы сами звезды/снежинки используете где-нибудь? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.09.2013, 21:29 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
еще как использую! попробуйте-ка на уровне детальных данных сложные вычисления с мудрёной логикой вычислений - в кубах ЛЮБЫХ платформ посчитать - и поймете, что здесь рулят SQL-query или их совокупность в процедурах ... |
|||
:
Нравится:
Не нравится:
|
|||
12.09.2013, 21:40 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ares_ekbА всё-таки, зачем все эти звезды, снежинки? В какой ситуации они могут быть лучше MOLAP?Зачем сравнивать теплое с мягким? То есть подход к дизайну хранилища и реализации OLAP. Для затравки, подумайте над тем откуда проще и быстрее грузить данные в куб: из базы, спроектированной по третьей нормальной форме или из звезды? А если еще добавляется приближенное к real time обновление куба по process add с необходимостью понимать что собственно надо передать в add. simlpemanеще как использую! попробуйте-ка на уровне детальных данных сложные вычисления с мудрёной логикой вычислений - в кубах ЛЮБЫХ платформ посчитать - и поймете, что здесь рулят SQL-query или их совокупность в процедурахНу в том же Оракле SQL применим и к ROLAP и к MOLAP. 13928604 А вот пример логики, где пришлось бы прибегнуть к процедуре интересно было бы услышать. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.09.2013, 02:51 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, я думаю, что хранилище должно быть в 5-ой, а в идеале в 6-ой НФ :) 6-ую НФ я конечно никогда не делал, но есть мнение, и я с ним согласен, что на ней проще, лучше делать кубы. Хотя у меня никогда не было больших кубов или real time требований. Самый большой куб - 250 000 записей в сутки. А такой глупый вопрос... Если я делаю, например, таблицу снимков состояния чего-нибудь на момент времени. Или есть, например, последовательность событий и я делаю представление типа (предыдущее_событие, текущее_событие). Это я делаю звезду/снежинку? ... |
|||
:
Нравится:
Не нравится:
|
|||
13.09.2013, 07:52 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ares_ekbА такой глупый вопрос... Если я делаю, например, таблицу снимков состояния чего-нибудь на момент времени. Или есть, например, последовательность событий и я делаю представление типа (предыдущее_событие, текущее_событие). Это я делаю звезду/снежинку? это у тебя таблица фактов - snapshot fact table. Во втором случае temporal snapshot fact table. если есть денормализованные измерения одного уровня - то звезда. Если многоуровневые - снежинка. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.09.2013, 10:55 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Apexdbms_photoshopДействительно, получается Инмон комбинирует два подхода, тогда как Кимбалл в последствии объединяет малые звезды в большую. Ну, я бы сказал, что архитектурный подход на самом деле у обоих один (если внимательно присмотреться), а именно: построить согласованную модель для детализированных данных, основанную на процессах предприятия, а не на требованиях к отчетности конкретных департаментов. Именно. Это собственно ключ! Согласованная модель. Правда вот цитата из Кимбала - http://citforum.ru/gazeta/47/ "Кимбалл считает, что усилия, затрачиваемые на разработку корпоративной модели данных, только задерживают работу над хранилищем данных. Лучше основывать модель хранилища данных на реальных источниках данных, заранее рассчитывая на то, что при выполнении процедуры ETL будут выявляться ошибки и несоответствие данных" ... |
|||
:
Нравится:
Не нравится:
|
|||
13.09.2013, 10:58 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
ХД в 6-й нормальной форме - ANCHOR ... |
|||
:
Нравится:
Не нравится:
|
|||
13.09.2013, 13:11 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., ага, я видел эту штуку. Мы делаем сейчас что-то похожее :) ... |
|||
:
Нравится:
Не нравится:
|
|||
13.09.2013, 14:59 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ares_ekb, Ну я до такого еще не дошел :). Строю на Data Vault, борюсь с любителями Кимбола :) внутри компании. Кусочек реализованного ХД (примерно 1\5) по DV, потихоньку расширяю его в стороны. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.09.2013, 15:32 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Кстати о витринах. Сейчас забугром есть мысли о том, что бы использовать в качестве витрин - движки больших данных (big table), прочитал тут на днях о проекте в котором в качестве ХД - реляционная база , витрина - колоночная база в которой каждая витрина - одна таблица. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.09.2013, 15:43 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. Строю на Data Vault, борюсь с любителями Кимбола :) внутри компании. Кусочек реализованного ХД (примерно 1\5) по DV, потихоньку расширяю его в стороны. Еще интересно какие ключевые отличия DV от 3NF? После столкновения с хранилищем сделанным по DV, изучения литературы и общения с приверженцами этой идеологии просветление ко мне не пришло. Такое впечатление, что давайте вместо Master, Detail, Link говорить Hub, Satellite, Link и назовём это новым подходом! ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 15:26 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. Кстати о витринах. Сейчас забугром есть мысли о том, что бы использовать в качестве витрин - движки больших данных (big table), прочитал тут на днях о проекте в котором в качестве ХД - реляционная база , витрина - колоночная база в которой каждая витрина - одна таблица. Сильно упрощая: Инмон предлагает между стеджингом и звездой втулить 3NF, а Кимбалл предлает лить напрямую из стейджинга в звезду. По прошествию лет я так и не увидел особых преимуществ добавления еще одного слоя в виде 3NF. Это не улучшает качество данных, не добавляет ясности, не ускоряет расширение звезды при добавлении новых требований или данных, а только наоборот усложнят процессы, но сейчас не об этом. Так вот, для стандартизации ETL заливающего в звезду можно между стейджингом и звездой добавить одну широкую абсолютно денормализированную таблицу со всеми фактами и атрибутами всех измерений (в Оракле, таблица с 1000 колонок может создать некоторые сложности, но это технические нюансы и, конечно, есть более подходящие для этого движки) На основании этой единой таблицы можно написать универсальный загрузчик заливки данных в звезду. Вот такой дополнительный слой разделяет процессы консолидации данных и заливки в звезду. Весьма хорошо зарекомендовал себя на практике. Практические преимущества 3NF (или DW) между стеджингом и звездой остаются для меня неясны. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 15:41 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Нормально все закончилось, построил пару, тройку хранилищ данных по DV 2.0, последнее в 2017 году, с тех пор больше ХД и BI не занимаюсь. Весной прошлого года перед самым карантином приглашали меня поработать с этой темой в Данию, я не поехал, время от времени тема эта всплывает. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 16:02 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., В чём суть и преимущества DV 2.0? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 16:09 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., Весной позапрошлого, в 20 м, конечно. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 16:17 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Возможность параллельной одновременной загрузки всех объектов ХД. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 16:19 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений). Так зачем еще один слой? ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 16:23 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Если тебе не нужно хранить полную историю изменений всех данных учётной системы, проводить аудит изменений, то строй звезду/снежинку ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 19:18 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., Для того, чтобы иметь возможность получить значения атрибутов и фактов в прошлом мне достаточно звезды. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 20:02 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Ну да, атрибутов и фактов. Но в ХД есть и другие объекты, связи например, как вы построите историю связей объектов, счетов-фактур с запросами на оплату, есть счёт-фактура к нему есть запрос на оплату, потом этот запрос на оплату удалили и создали два новых, разделив суммы счета-фактуры между ними, потом и их удалили, создали снова один запрос на оплату, как вы в своей плоской картине мира из атрибутов и фактов в звезде/снежинке покажете полную историю этого процесса? Никак. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.01.2022, 21:55 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. dbms_photoshop, Нормально все закончилось, построил пару, тройку хранилищ данных по DV 2.0, последнее в 2017 году, с тех пор больше ХД и BI не занимаюсь. Весной прошлого года перед самым карантином приглашали меня поработать с этой темой в Данию, я не поехал, время от времени тема эта всплывает. А чем теперь вместо ХД и BI занимаешься? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.01.2022, 17:38 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Полковник., В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений). Так зачем еще один слой? 3NF нужен для единого, согласованного источника построения звёзд чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются так то по Кимбалу строить сразу наборы звёзд быстрее, конечно На России все большие энтерпрайз хранилища в сторону 100 ТБ и выше для построения регулярной и управленческой отчетности делаются с общим 3NF. Ну или DV. DV нужен для того, что он более гибкий. Там быстрее меняется изменяется схема. Чотко разделена бизнес и технологическая семантика, ты просто новые технологические блоки стандартные запихиваешь при изменениях. Это ускоряет изменение схемы. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.01.2022, 17:44 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш, Process Mining в той его части где идёт работа с данными, системный анализ, поиск данных в источниксх, интеграция, разработка и загрузка модели данных. После меня работает бизнес-аналитик, роётся во всем этом, пытается показать бизнесу где косяки в их процессах и что нужно сделать, что бы косяки минимизировать. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.01.2022, 22:30 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник., Часть работ похожа на архитектора модели данных. Но это тоже ХД и BI же, одна из его частей. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2022, 13:23 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш, Да, все сильно похоже на то, чем занимался раньше, переход не был трудным. В компании, где работаю это называют инженер-данных, хотя, это не принципиально. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.01.2022, 17:46 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Практические преимущества 3NF (или DW) между стеджингом и звездой остаются для меня неясны. DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее. Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными. Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары. Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.01.2022, 11:20 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. как вы в своей плоской картине мира из атрибутов и фактов в звезде/снежинке покажете полную историю этого процесса? Никак. Если по каким-то причинам добавление в звезду не целесообразно, то можно в вонце концов связь заливать в стейджинг из оперативной базы и брать оттуда. Этот пример никоим образом для меня не проясняет необходимость лишнего слоя в виде DV. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 15:16 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш 3NF нужен для единого, согласованного источника построения звёзд чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются Какой департамент её стоит? Может оба дружно участвуют? Или вообще некий сторонний authority занимается консолидацией? Я допускаю, что это минимизирует риск расхождения данных в звёздах разных департаментов на основе консолидированного источника, но не исключает его. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 15:25 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее. Это вполне можно делать параллельно. Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно. a_voronin Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными. a_voronin Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары. Может быть речь про пред-заказы до поступления товаров? a_voronin Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения. Частота и способ обновления звезды, на мой взгляд, это отдельный вопрос от заливки в стейджинг, единственное что - её вряд ли имеет смысл обновлять чаще чем приходят данные. :) ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 15:43 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Бумбараш 3NF нужен для единого, согласованного источника построения звёзд чтобы когда два департмента построили свои отдельные звёзды, можно было понять, почему данные в них различаются Какой департамент её стоит? департамент данных ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 15:50 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно. Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно. p.s. Ну и про LAD они тоже почему-то не в курсе ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 17:07 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли. Ivan Durak Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 17:32 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Дедушка dbms_photoshop Необходимость stage для меня полностью обоснована. Безусловно имеет смысл хранить данные которын пришли в том виде в котором они пришли. Ivan Durak Адепты культа верят что только в DV умеют делать хэш ключи из BK, а всем другим такое тайное знание недоступно. не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 17:46 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop Полковник., В звезду все равно не удасться грузить факты не загрузив измерения (если надо генерировать ключи измерений). Так зачем еще один слой? че за бред. LAD изобрели 20 лет назад чтобы грузить факты до измерений ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 17:47 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ivan Durak Дедушка пропущено... задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли" пропущено... дело не в генерации ключа, а в идее отделения атрибутов ключа от самого ключа (если утрировать), что даёт лёгкое наращивание модели новыми атрибутами. DV имеет как плюсы, так и минусы, это инструмент, который хорош при определённых условиях. не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа Конечно, ведь DV это по сути и есть 3NF, просто об'ект разрезан на три таблицы - ключ, связи, атрибуты. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 18:55 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ну и добавить колонку, а потом перегрузить данные в таблицу, в которой 100 колонок и N ТБ данных очень интересное занятие да ещё и с историей, гораздо проще добавить 1 сателлит с одним атрибутом и догрузить только его. Вообще DV - это темпоральное, или даже битемпоральное хранилище данных, придумано для хранения истории исходных систем, а не для отчётов. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 19:05 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ivan Durak не вижу никакой разницы в добавлении нового атрибута что в DV (добавить колонку в саттелит таблицу и etl обновить), что в 3nf модели - добавить колонку в дименшен и etl обновить, те же яцйа ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 19:56 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop a_voronin DV и Якорная модель имеют смысл, когда требуется заливать связанные данные параллельно. Это заливка на уровне Stage или ODS. При этом звезда и снежинка формируются позднее. Это вполне можно делать параллельно. Зачем переливать пришедшее в DV и как это положительно влияет на параллельность не совсем понятно. a_voronin Еще одно преимущество DV и Якорная модели в том, что они генерируют суррогатные ключи, тем самым делая звезду и снежинку более оптимальными. a_voronin Еще они легко решают проблемы отложенной загрузки ключей. Например, вы можете заливать продажи до того, как поступили товары. Может быть речь про пред-заказы до поступления товаров? a_voronin Зачем формировать сначала stage, а потом звезду -- ответ в инкрементальном обновлении данных. Если Stage точно захватывает все изменения, то таблица фактов в звезде обычно обновляется по партициям (по месяцам). А справочники, как правило, полностью, но это не точно и бывают исключения. Частота и способ обновления звезды, на мой взгляд, это отдельный вопрос от заливки в стейджинг, единственное что - её вряд ли имеет смысл обновлять чаще чем приходят данные. :) DV и Якорная модель это и есть stage. Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу. Но этот принцип верен для реляционный БД, для Массивно парралельных, для Олап кубов, и т.п. 3NF не самая оптимальная структура для отчетности. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.01.2022, 20:02 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin 3NF не самая оптимальная структура для отчетности. DV еще менее оптимальная, по любому для отчетности датамарты делать денормализованные ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 03:38 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. Ну и добавить колонку, а потом перегрузить данные в таблицу, в которой 100 колонок и N ТБ данных очень интересное занятие да ещё и с историей Зачем?? зачем при добавлении колонки перегружать всю таблицу??? (не важно с историей или без). Это вы сами придумали или где-то прочитали?? гораздо проще добавить 1 сателлит с одним атрибутом и догрузить только его. одну колонку проще добавить чем одну таблицу полюбому Вообще DV - это темпоральное, или даже битемпоральное хранилище данных, придумано для хранения истории исходных систем, а не для отчётов. и 3nf для хранения исходных систем, для отчетов датамарты денормализованные придуманы, поверх 3нф построенные. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 03:43 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш департамент данных ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 18:38 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Дедушка задача стейджа не в том, чтобы "хранить данные в том виде в котором они пришли" Например отсюда https://www.matillion.com/resources/blog/data-vault-vs-star-schema-vs-third-normal-form-which-data-model-to-use Staging data models Key characteristics of staging data models are: The model is determined by the source system ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 18:49 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin DV и Якорная модель это и есть stage. Мне таки попалось относительно адекватное описание DV. https://www.indellient.com/blog/data-vault-what-is-it-and-when-should-it-be-used/ Если влом читать цликом, то можно ознакомитсяс секцией "The Drawbacks". a_voronin Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу. Можно поподробнее куда и сколько уходило времени и как здесь помог укороченный ключ. Идеально было бы с планами запросов и затраченным временем на каждой операции плана. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 19:02 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Ivan Durak, Зачем, зачем, вопрос какой то странный, значит было надо, была такая задачка, добавить колонку и перегрузить данные за десять лет с учётом добавленной колонки. ... |
|||
:
Нравится:
Не нравится:
|
|||
23.01.2022, 21:52 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop a_voronin Почему-то очень трудно донести до людей в последнее время, что чем меньше весит ключ, тем быстрее все работает. Вот недавно заменил ключ с 32 байт на 8 и загрузка ускорилась в 4 раза. Может я на другой планете живу. Можно поподробнее куда и сколько уходило времени и как здесь помог укороченный ключ. Идеально было бы с планами запросов и затраченным временем на каждой операции плана. Знаете я уже вышел из того возраста, когда я ковыряюсь в планах, если и смотрю, то как правило живые планы и присматриваюсь как какой узел тикает. Обычно на смотрю на типы полей, индексы и запрос и вижу, что надо исправить. Причем в последнее время на даже на ранее неизвестных мне БД. По поводу "поподробнее куда и сколько уходило времени" -- я не вдаюсь в такие детали -- мой подход -- исправил запрос залетало. А в планах можете поковыряться сами. Мне за почти 20 лет программирования на БД это уже надоело. Как правило, когда кто-то не может оптимизировать запрос - идут ко мне. Поэтому чем меньше ключ -- тем быстрее. Можете начать громче кричать, что в моих словах нет пруфа, что это не обоснованно, что надо обосновать ... мне это не интересно. Замените varchar(32) на GUID -- выигрыш в 2 раза и более, на BIGINT в 4 раза и более, на INT64 в 8 раз, на INT32 в 16 раз. Лично проверено на таких БД как MS SQL, Oracle, Vertica, GreenPlum, SAP HANA, MySQL, SSAS. Удручает то, что часто приходится разгребать полное Г. после тех, кто не задумывался о типах полей. Напишите A JOIN B на полях различных размеров и типов и сами для себя сделайте пруф. Посмотрите планы. У меня хватает запросов с 15-25 джойнами для оптимизации. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 03:05 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, молодец!!! [youtube=https://www.youtube.com/watch?v=IZw1cB1uDts] теперь можешь прокомментировать/проанализировать вторую часть ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 03:20 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные. Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего? ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 12:55 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop a_voronin DV и Якорная модель это и есть stage. Мне таки попалось относительно адекватное описание DV. https://www.indellient.com/blog/data-vault-what-is-it-and-when-should-it-be-used/ Если влом читать цликом, то можно ознакомитсяс секцией "The Drawbacks". Ты сам внимательно прочитал указанную статью? Data Vault is essentially a layer between the information mart / star schema and staging. There is some additional overhead that comes with developing this layer both in terms of ETL development and modeling. If the project is on a small scale or the project’s life is short-lived, it may not be worth pursuing a Data Vault model. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 13:12 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные. Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего? Видимо теоретик запутался в понятиях KNOT и ANCHOR/HUB . LINK/TIE на первый как правило не историчен, на второй историчен. Мне вот тоже странно смотреть на людей, которые ни черта не имеют практического опыта в данных моделях, но начинают теоретизировать в неизвестное никуда. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 13:15 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin Знаете я уже вышел из того возраста, когда я ковыряюсь в планах Но мне уже предельно ясно, что содержательного диалога тут быть не могло. a_voronin молодец!!! ... теперь можешь прокомментировать/проанализировать вторую часть Сохранить лицо можно было бы как-то ответив на мои пункты или прокомментировав видео, но я понял, что это непосильная задача. a_voronin Ты сам внимательно прочитал указанную статью? Data Vault is essentially a layer between the information mart / star schema and staging. There is some additional overhead that comes with developing this layer both in terms of ETL development and modeling. If the project is on a small scale or the project’s life is short-lived, it may not be worth pursuing a Data Vault model. Здесь не понятно у тебя плохо с английским или с логикой, но в любом случае беспредметную дискуссию нет смысла продолжать. ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 21:33 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Полковник. Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные. Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего? Господин Воронин предложил для ознакомления видео 22419419 Я высказал недоумение относительно увиденного. Если вопрос про линк и историю, то можно просмотреть с 33:33 ... |
|||
:
Нравится:
Не нравится:
|
|||
24.01.2022, 21:47 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop, Дело лишь в том, что у Полковника есть опыт разработки DV, а у меня якорной модели. У Голова есть опыт и того и другого. Как это вписывается в хранилище нам понятно. Мне доводилось встречаться с ними лично. У тебя похоже знания теоретические. А твои требования, докажи, продемонстрируй. Возьми проект по DV или Якорям и реализуй сам. Тогда поймешь. Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 03:04 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже. А между якорной моделью и витринами / звездами был еще какой то слой? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 13:31 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже. А где якоря вообще используются на интерпрайз уровне, кроме Авито? Не видел нигде. Был на собесе в Авито, 5+ лет назад, спросил почему у вас якоря, какие плюсы минусы - типы мне не смогли ответить ничего. После этого подумал, что так как Авито шведская контора и якоря из Швеции, они туда как-то скочевали видимо из Скандинавии. На дракарах. Больше нигде якорей не видел. DV, да, сейчас самая популярная модель. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 15:35 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
Бумбараш a_voronin Я использовать якорную модель в качестве стейджа. Судя по тому, что рассказывал мне голов при личной встрече -- он тоже. А где якоря вообще используются на интерпрайз уровне, кроме Авито? Не видел нигде. Был на собесе в Авито, 5+ лет назад, спросил почему у вас якоря, какие плюсы минусы - типы мне не смогли ответить ничего. После этого подумал, что так как Авито шведская контора и якоря из Швеции, они туда как-то скочевали видимо из Скандинавии. На дракарах. Больше нигде якорей не видел. DV, да, сейчас самая популярная модель. Я внедрял в Вайлдберрз и Мираторге. В последнем по имеющимся сведениям они по прежнему работают. Был на собесе в Profi.ru уже года 3-4 назад. Там планировали делать. Есть ещё какая-то контора на западе Москвы, там тоже есть якоря на Вертике. Время от времени вижу в вакансия требования о знании якорей. Из Авито Голов ушел уже давно. То, что человек с кем собеседовались ничего не сказал, не значит, что их похерили. В большой конторе могут и не знать, что в соседнем отделе. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 18:10 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
s_ustinov, По сути не было. Сначала данные лили в буфер -- по сути временная таблица. Потом в якоря. Потом таблицу, которые SWAP PATRITION-ом загонял в конечные факты. Примерно так. Примерно это же показывал Голов, когда я с ним общался в Авито. Якоря хороши на сущностях типа заказов, где происходит более 20 обновлений записей в процессе обработки. Ещё они хороши, где крупный справочник, вроде товаров завязан на много таблиц, типа заказы, платежи, поставки, остатки, цены, планы и т.п. Если вы покопаетесь в статьях основателя, то там есть исследование, что эффект от якорей начинает проявляться лишь после уровня в поллимона записей. Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 18:17 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом. случайно одна нода не ключ к успеху тут ? если бы этот миллиард джойнов пришлось бы делать на нескольких узлах - не вылезли бы сложности с тусованием данных для джойнов по нодам ? ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 19:51 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
H5N1 a_voronin Я достигал того, что сопливая однонодная вертика обрабатывала данные в 3-4 раза быстрее, чем MS SQL со значительно более мощным железом. случайно одна нода не ключ к успеху тут ? если бы этот миллиард джойнов пришлось бы делать на нескольких узлах - не вылезли бы сложности с тусованием данных для джойнов по нодам ? Если вы умеете разрабатывать правильный код на массивно-параллельных базах, то не вылезут. Если не умеете, то вылезут. Но главный принцип там простой -- справочники клонируются на все ноды, факты шардируются по всем нодам, но иногда требуется соединить что-то вперемешку и тогда будет перемешивание. Но это редко. Якорная модель на массивно параллельные БД ложиться хорошо. Хотя могут быть нюансы под конкретную задачу. Для нее важны джойны. Поэтому Кликхаус плох для нее. Гринплам тоже не очень, но Голов говорит, что последняя версия уже может потянуть. Вертика, Терадата. Вот ок. ... |
|||
:
Нравится:
Не нравится:
|
|||
25.01.2022, 20:30 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin s_ustinov, По сути не было. Сначала данные лили в буфер -- по сути временная таблица. Потом в якоря. Потом таблицу, которые SWAP PATRITION-ом загонял в конечные факты. Примерно так. Примерно это же показывал Голов, когда я с ним общался в Авито. Думаю, тут расхождение в терминологии. Лично мне нравится вот такая классификация “слоев”: Stage --> Core --> Data Marts И звезды - одна из разновидностей витрин данных. При этом стейдж максимально близок по структуре и форматам к системам - источникам, а витрины данных удобны для пользователей. И, разумеется, в реальных системах часть слоев может быть пропущена. Отчеты в принципе можно строить непосредственно на 3NF / DV, хотя это и будет не очень удобно. Точно так же можно из стейджа сразу лить данные в витрины, как Кимбал предлагает. То есть то, что вы льете данные сразу в якоря - не делает этот слой стейджем. Большинство авторов явно указывают, что схожесть структуры данных к структуре в системах источниках (или выгрузок из них) является одним из признаков стейджа. А я как то сильно сомневаюсь, что у вас источники данные хранят в якорной модели. ))) a_voronin Сначала данные лили в буфер -- по сути временная таблица. Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2022, 14:24 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
s_ustinov a_voronin Сначала данные лили в буфер -- по сути временная таблица. Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников. да полностью повторяет, но stage в моем понимании данные сохраняет, а буфер нет ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2022, 15:10 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
dbms_photoshop [quote=Полковник.]Сравнивать звезду и dv, это всеравно что сравнивать самолёт с пароходом. Зачем? Сто раз писал уже, у них задачи разные. Что бы понять DV, что и как в нем делается нужно его построить, и не на 10 таблицах, а на паре, тройке тысяч таблиц. Линк у них без истории, придурки, теоретики... а LSAT для чего? Господин Воронин предложил для ознакомления видео 22419419 Я высказал недоумение относительно увиденного. Если вопрос про линк и историю, то можно просмотреть с 33:33 ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2022, 15:11 |
|
Витрины данных. Что это?
|
|||
---|---|---|---|
#18+
a_voronin s_ustinov пропущено... Вот это больше похоже на стейдж. Подозреваю, структура этого буфера в точности копировала структуру выгрузки из источников. да полностью повторяет, но stage в моем понимании данные сохраняет, а буфер нет Значит, в этом проекте полноценного стейджа нет. А есть слой Core с якорной моделью и витрины. Но это - вопрос используемой терминологии. Вам может быть удобнее использовать другое значение терминов. Хотя приведенное мной, как мне кажется, более распространенное. Особенно учитывая тот факт, что подход ELT последнее время используется чаще, чем ETL. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.01.2022, 20:20 |
|
|
Start [/forum/topic.php?fid=49&tid=1857040&all=1]: |
0ms |
get settings: |
1ms |
get forum list: |
7ms |
check forum access: |
0ms |
check topic access: |
0ms |
track hit: |
27ms |
get topic data: |
12ms |
get forum data: |
1ms |
get page messages: |
52ms |
update_topic_read_status (1857040): 28.01.2022 20:20:47: |
0ms |
get tp. blocked users: |
0ms |
get online users: |
18ms |
check new: |
1ms |
others: | 76ms |
total: | 195ms |
0 / 0 |