Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Модель данных для хранилища на Hadoop / 8 сообщений из 8, страница 1 из 1
22.12.2018, 23:10
    #39751759
twinplay
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модель данных для хранилища на Hadoop
Кто-нибудь встречал толковое описание (можно на англ.) подходов к моделированию ХД на Hadoop (в Data Lake, HDFS, S3, GCS, кому что ближе). Только структурированные данные. Т.е. загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области тоже в файлы. Что-то аналогичное Data Vault/Dim Modeling/Anchor в случае реляционных ХД.
...
Рейтинг: 0 / 0
24.12.2018, 12:25
    #39752149
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модель данных для хранилища на Hadoop
twinplayКто-нибудь встречал толковое описание (можно на англ.) подходов к моделированию ХД на Hadoop (в Data Lake, HDFS, S3, GCS, кому что ближе). Только структурированные данные. Т.е. загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области тоже в файлы. Что-то аналогичное Data Vault/Dim Modeling/Anchor в случае реляционных ХД.
именно моделирование искал, но ничего толком не нашел. как я понял data vault 2.0 именно под хадупы позиционируют.
на тему "загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области"

Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump
by Bill Inmon
Published by Technics Publications, 2016

но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах.
...
Рейтинг: 0 / 0
24.12.2018, 15:19
    #39752333
Hunterik
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модель данных для хранилища на Hadoop
H5N1twinplayКто-нибудь встречал ...
...
Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump
by Bill Inmon
Published by Technics Publications, 2016

но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах .
Вообще дословно так...
"...
But the data model for the application pond has one complication that classical data models do not have.
The application data pond holds data over a lengthy period of time, but the data model itself changes over time. As a result, the data model for the application data pond needs to be quite flexible.
...
So the data model for the application data pond is a very sophisticated model."

В целом книга достаточно высокоуровневая.
...
Рейтинг: 0 / 0
24.12.2018, 16:03
    #39752369
kaldorey
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модель данных для хранилища на Hadoop
twinplay,

dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу
...
Рейтинг: 0 / 0
24.12.2018, 17:47
    #39752406
H5N1
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модель данных для хранилища на Hadoop
HunterikH5N1пропущено...

...
Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump
by Bill Inmon
Published by Technics Publications, 2016

но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах .
Вообще дословно так...
"...
But the data model for the application pond has one complication that classical data models do not have.
The application data pond holds data over a lengthy period of time, but the data model itself changes over time. As a result, the data model for the application data pond needs to be quite flexible.
...
So the data model for the application data pond is a very sophisticated model."

В целом книга достаточно высокоуровневая.
ну в смысле что не vault 2.0, не звезда, не снежинка, а некая sophisticated model.
я понял что он имеет ввиду нечто более менее напоминающее исходные таблицы
...
Рейтинг: 0 / 0
25.12.2018, 21:34
    #39753109
twinplay
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модель данных для хранилища на Hadoop
kaldoreytwinplay,

dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу

Соглашусь. Интересно бы узнать мнение тех, кто на практике использовал...
...
Рейтинг: 0 / 0
25.12.2018, 21:43
    #39753115
twinplay
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модель данных для хранилища на Hadoop
HunterikВ целом книга достаточно высокоуровневая.

По этой теме вообще сложно найти что-то невысокоуровневое и немаркетинговое. Похоже на историю с подростковым cekcoм, про который все говорят, но никто не пробовал :)
...
Рейтинг: 0 / 0
02.01.2019, 01:17
    #39755432
Ivan Durak
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Модель данных для хранилища на Hadoop
twinplaykaldoreytwinplay,

dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу

Соглашусь. Интересно бы узнать мнение тех, кто на практике использовал...
на практике поверх dw еще надо одну модель делать, для нормальной аналитики. дименшинал обычно
...
Рейтинг: 0 / 0
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Модель данных для хранилища на Hadoop / 8 сообщений из 8, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]