powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Модель данных для хранилища на Hadoop
8 сообщений из 8, страница 1 из 1
Модель данных для хранилища на Hadoop
    #39751759
twinplay
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Кто-нибудь встречал толковое описание (можно на англ.) подходов к моделированию ХД на Hadoop (в Data Lake, HDFS, S3, GCS, кому что ближе). Только структурированные данные. Т.е. загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области тоже в файлы. Что-то аналогичное Data Vault/Dim Modeling/Anchor в случае реляционных ХД.
...
Рейтинг: 0 / 0
Модель данных для хранилища на Hadoop
    #39752149
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
twinplayКто-нибудь встречал толковое описание (можно на англ.) подходов к моделированию ХД на Hadoop (в Data Lake, HDFS, S3, GCS, кому что ближе). Только структурированные данные. Т.е. загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области тоже в файлы. Что-то аналогичное Data Vault/Dim Modeling/Anchor в случае реляционных ХД.
именно моделирование искал, но ничего толком не нашел. как я понял data vault 2.0 именно под хадупы позиционируют.
на тему "загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области"

Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump
by Bill Inmon
Published by Technics Publications, 2016

но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах.
...
Рейтинг: 0 / 0
Модель данных для хранилища на Hadoop
    #39752333
Фотография Hunterik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1twinplayКто-нибудь встречал ...
...
Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump
by Bill Inmon
Published by Technics Publications, 2016

но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах .
Вообще дословно так...
"...
But the data model for the application pond has one complication that classical data models do not have.
The application data pond holds data over a lengthy period of time, but the data model itself changes over time. As a result, the data model for the application data pond needs to be quite flexible.
...
So the data model for the application data pond is a very sophisticated model."

В целом книга достаточно высокоуровневая.
...
Рейтинг: 0 / 0
Модель данных для хранилища на Hadoop
    #39752369
kaldorey
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
twinplay,

dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу
...
Рейтинг: 0 / 0
Модель данных для хранилища на Hadoop
    #39752406
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
HunterikH5N1пропущено...

...
Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump
by Bill Inmon
Published by Technics Publications, 2016

но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах .
Вообще дословно так...
"...
But the data model for the application pond has one complication that classical data models do not have.
The application data pond holds data over a lengthy period of time, but the data model itself changes over time. As a result, the data model for the application data pond needs to be quite flexible.
...
So the data model for the application data pond is a very sophisticated model."

В целом книга достаточно высокоуровневая.
ну в смысле что не vault 2.0, не звезда, не снежинка, а некая sophisticated model.
я понял что он имеет ввиду нечто более менее напоминающее исходные таблицы
...
Рейтинг: 0 / 0
Модель данных для хранилища на Hadoop
    #39753109
twinplay
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
kaldoreytwinplay,

dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу

Соглашусь. Интересно бы узнать мнение тех, кто на практике использовал...
...
Рейтинг: 0 / 0
Модель данных для хранилища на Hadoop
    #39753115
twinplay
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
HunterikВ целом книга достаточно высокоуровневая.

По этой теме вообще сложно найти что-то невысокоуровневое и немаркетинговое. Похоже на историю с подростковым cekcoм, про который все говорят, но никто не пробовал :)
...
Рейтинг: 0 / 0
Модель данных для хранилища на Hadoop
    #39755432
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
twinplaykaldoreytwinplay,

dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу

Соглашусь. Интересно бы узнать мнение тех, кто на практике использовал...
на практике поверх dw еще надо одну модель делать, для нормальной аналитики. дименшинал обычно
...
Рейтинг: 0 / 0
8 сообщений из 8, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Модель данных для хранилища на Hadoop
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]