|
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
|
|||
---|---|---|---|
#18+
Господа-товарищи, тема скорее для этой ветки, чем для архитектуры БД, ибо вопрос все же концептуально по DWH. Имею опыт построения традиционных реляционных DWH (Oracle, звезда, снежинка, ETL на всяких Informatica-подобных, BI на выходе для отчетности). Хотелось бы получить информацию по практическому применению разного рода СУБД при построении архитектуры ХД для максимального ускорения процессов загрузки, оптимизации хранения и скорости отдачи данных всякого рода клиентам (в первую очередь юзерам в виде отчетов). Скажем, представим, что у нас банк. Данные, как и предметные области во всех банках на 99% одинаковые. Помимо стандартных реляционок хотим использовать MPP, колоночные СУБД, NoSQL может, еще что-то актуальное. Но опыта построения архитектуры и взаимодействия этого зоопарка у нас нет. Но при этом мы хотим дать клиентам данные как можно быстрее и в больших объемах. В связи с этим вопросы: - не могли бы описать свой опыт в вопросе взаимодействия зоопарка. Что и как работает, за что отвечает? - если говорить про банковские данные, какие данные и куда (в какую СУБД) стоит поместить? Общее понимание вроде есть, но вот если бы на конкретных примерах типа "остатки храним там то, справочники вот здесь, потом все это как-то вяжем между собой и отдаем клиенту и главное - почему делаем именно так", был бы очень благодарен Понимаю, что тема немного холиварная в том числе от того, что вопросы очень обобщенные. Но, в связи с тем, что пока нет опыта в подобной архитектуре, то и поверхностной информации об инфраструктуре было бы достаточно. Благодарю! ... |
|||
:
Нравится:
Не нравится:
|
|||
12.02.2021, 20:05 |
|
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
|
|||
---|---|---|---|
#18+
Master_Detail, >>остатки храним там то, справочники вот здесь Ээ, вы имеете ввиду разные СУБД? Или что? Имхо конечно, но если у вас не банк из топ10 (а у вас не он, раз имеются такие вопросы), то используйте стандартную архитектуру, вам ее лет на 10-15 хватит Ps обычно факты бьются с помощью хэша по отдельным машинам mpp, а справочники везде дублируются, в результате все нужные джойны происходят параллельно, а потом результат объединяется ... |
|||
:
Нравится:
Не нравится:
|
|||
12.02.2021, 23:55 |
|
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
|
|||
---|---|---|---|
#18+
Master_Detail Помимо стандартных реляционок хотим использовать MPP, колоночные СУБД, NoSQL может, еще что-то актуальное. Но опыта построения архитектуры и взаимодействия этого зоопарка у нас нет. обычно при построении DWH используется не зоопарк, а одна СУБД. Можно взять MPP, можно колонку. Сейчас по-моему все MPP колоночные. Так как MPP и колонки это те же реляционные БД, что и раньше, то там используют те же архитектуры - звезды, снежинки, дата волты. Вобщем-то и всё. Иногда перед этим хадуп ставят и называют дата лейком. Как там по архитектуре, можно Инмона почитать. Но строгой какой-то схемы нет, как я понимаю, потому что там обычно всё равно мусор валяется. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.02.2021, 01:45 |
|
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
|
|||
---|---|---|---|
#18+
у нас практически все переехало в Data Lake хадуп. там и ETL, кафка, основное хранилище и часть витрин. в качестве MPP базы для хадуп витрин - Impala. вторая часть, для агрегированной ad-hoc отчетности, в Vertica. поверх вертики BO и Qlik у Инмона, да, хорошая книжка Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump. но так и не понял как книжка теперь считается с пургой, что он в блог понаписал. в книге он говорит, что реляционные данные в DL надо класть в комон схеме, приближенной к тем структурам в каких источник свое барахло хранит. он это называет application pond, мы пришли примерно к той же схеме. а, если надо что-то очень быстро протолкнуть, то в процессе ETL это что-то пропихивать в кафку. я видел у PowerBI в облаке стриминг отчеты есть, как я понял стриминг источники PowerBI совместимы с кафкой и отчет может отображать то что ETL в кафку валит. ... |
|||
:
Нравится:
Не нравится:
|
|||
13.02.2021, 12:10 |
|
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
|
|||
---|---|---|---|
#18+
H5N1 но так и не понял как книжка теперь считается с пургой, что он в блог понаписал. *сочетается ... |
|||
:
Нравится:
Не нравится:
|
|||
13.02.2021, 12:25 |
|
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
|
|||
---|---|---|---|
#18+
любой современный BI может "провалиться" из агрегата в другую базу, которой может быть MPP с деталькой другой вопрос, что эта деталька в 99% случаев нафиг никому не сдалась, по крайней мере живым людям. В телекоме про нее спрашивают только безопасники при расследованиях. А так она только алгоритмам нужна, а им не надо мешать агрегаты с деталькой, поэтому системы могут существовать автономно. Залили DDL, сагрегировали, положили в витрины и все. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.02.2021, 20:19 |
|
|
start [/forum/topic.php?fid=49&msg=40045597&tid=1857189]: |
0ms |
get settings: |
11ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
49ms |
get topic data: |
9ms |
get forum data: |
3ms |
get page messages: |
37ms |
get tp. blocked users: |
1ms |
others: | 14ms |
total: | 145ms |
0 / 0 |