|
|
|
Модель данных для хранилища на Hadoop
|
|||
|---|---|---|---|
|
#18+
Кто-нибудь встречал толковое описание (можно на англ.) подходов к моделированию ХД на Hadoop (в Data Lake, HDFS, S3, GCS, кому что ближе). Только структурированные данные. Т.е. загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области тоже в файлы. Что-то аналогичное Data Vault/Dim Modeling/Anchor в случае реляционных ХД. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.12.2018, 23:10 |
|
||
|
Модель данных для хранилища на Hadoop
|
|||
|---|---|---|---|
|
#18+
twinplayКто-нибудь встречал толковое описание (можно на англ.) подходов к моделированию ХД на Hadoop (в Data Lake, HDFS, S3, GCS, кому что ближе). Только структурированные данные. Т.е. загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области тоже в файлы. Что-то аналогичное Data Vault/Dim Modeling/Anchor в случае реляционных ХД. именно моделирование искал, но ничего толком не нашел. как я понял data vault 2.0 именно под хадупы позиционируют. на тему "загрузили файлы в RAW область, а дальше очистка/интеграция/консолидация с сохранением в отдельные области" Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump by Bill Inmon Published by Technics Publications, 2016 но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.12.2018, 12:25 |
|
||
|
Модель данных для хранилища на Hadoop
|
|||
|---|---|---|---|
|
#18+
H5N1twinplayКто-нибудь встречал ... ... Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump by Bill Inmon Published by Technics Publications, 2016 но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах . Вообще дословно так... "... But the data model for the application pond has one complication that classical data models do not have. The application data pond holds data over a lengthy period of time, but the data model itself changes over time. As a result, the data model for the application data pond needs to be quite flexible. ... So the data model for the application data pond is a very sophisticated model." В целом книга достаточно высокоуровневая. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.12.2018, 15:19 |
|
||
|
Модель данных для хранилища на Hadoop
|
|||
|---|---|---|---|
|
#18+
twinplay, dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.12.2018, 16:03 |
|
||
|
Модель данных для хранилища на Hadoop
|
|||
|---|---|---|---|
|
#18+
HunterikH5N1пропущено... ... Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump by Bill Inmon Published by Technics Publications, 2016 но там он общие концепции описывает, по модели данных говорит что в application pond (там где структурированные данные) хранить лучше примерно в тех же структурах, какие в oltp базах . Вообще дословно так... "... But the data model for the application pond has one complication that classical data models do not have. The application data pond holds data over a lengthy period of time, but the data model itself changes over time. As a result, the data model for the application data pond needs to be quite flexible. ... So the data model for the application data pond is a very sophisticated model." В целом книга достаточно высокоуровневая. ну в смысле что не vault 2.0, не звезда, не снежинка, а некая sophisticated model. я понял что он имеет ввиду нечто более менее напоминающее исходные таблицы ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 24.12.2018, 17:47 |
|
||
|
Модель данных для хранилища на Hadoop
|
|||
|---|---|---|---|
|
#18+
kaldoreytwinplay, dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу Соглашусь. Интересно бы узнать мнение тех, кто на практике использовал... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.12.2018, 21:34 |
|
||
|
Модель данных для хранилища на Hadoop
|
|||
|---|---|---|---|
|
#18+
HunterikВ целом книга достаточно высокоуровневая. По этой теме вообще сложно найти что-то невысокоуровневое и немаркетинговое. Похоже на историю с подростковым cekcoм, про который все говорят, но никто не пробовал :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 25.12.2018, 21:43 |
|
||
|
Модель данных для хранилища на Hadoop
|
|||
|---|---|---|---|
|
#18+
twinplaykaldoreytwinplay, dw2.0 должна прекрасно подойти, так как insert only архитектура, но лично на хадупе ее не проектировал, успех гарантировать не могу Соглашусь. Интересно бы узнать мнение тех, кто на практике использовал... на практике поверх dw еще надо одну модель делать, для нормальной аналитики. дименшинал обычно ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 02.01.2019, 01:17 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=39752149&tid=1857693]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
157ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
52ms |
get tp. blocked users: |
2ms |
| others: | 235ms |
| total: | 491ms |

| 0 / 0 |

Извините, этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
... ля, ля, ля ...