|  | 
| 
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее | |||
|---|---|---|---|
| #18+ Господа-товарищи, тема скорее для этой ветки, чем для архитектуры БД, ибо вопрос все же концептуально по DWH. Имею опыт построения традиционных реляционных DWH (Oracle, звезда, снежинка, ETL на всяких Informatica-подобных, BI на выходе для отчетности). Хотелось бы получить информацию по практическому применению разного рода СУБД при построении архитектуры ХД для максимального ускорения процессов загрузки, оптимизации хранения и скорости отдачи данных всякого рода клиентам (в первую очередь юзерам в виде отчетов). Скажем, представим, что у нас банк. Данные, как и предметные области во всех банках на 99% одинаковые. Помимо стандартных реляционок хотим использовать MPP, колоночные СУБД, NoSQL может, еще что-то актуальное. Но опыта построения архитектуры и взаимодействия этого зоопарка у нас нет. Но при этом мы хотим дать клиентам данные как можно быстрее и в больших объемах. В связи с этим вопросы: - не могли бы описать свой опыт в вопросе взаимодействия зоопарка. Что и как работает, за что отвечает? - если говорить про банковские данные, какие данные и куда (в какую СУБД) стоит поместить? Общее понимание вроде есть, но вот если бы на конкретных примерах типа "остатки храним там то, справочники вот здесь, потом все это как-то вяжем между собой и отдаем клиенту и главное - почему делаем именно так", был бы очень благодарен Понимаю, что тема немного холиварная в том числе от того, что вопросы очень обобщенные. Но, в связи с тем, что пока нет опыта в подобной архитектуре, то и поверхностной информации об инфраструктуре было бы достаточно. Благодарю! ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 12.02.2021, 20:05 |  | ||
| 
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее | |||
|---|---|---|---|
| #18+ Master_Detail, >>остатки храним там то, справочники вот здесь Ээ, вы имеете ввиду разные СУБД? Или что? Имхо конечно, но если у вас не банк из топ10 (а у вас не он, раз имеются такие вопросы), то используйте стандартную архитектуру, вам ее лет на 10-15 хватит Ps обычно факты бьются с помощью хэша по отдельным машинам mpp, а справочники везде дублируются, в результате все нужные джойны происходят параллельно, а потом результат объединяется ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 12.02.2021, 23:55 |  | ||
| 
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее | |||
|---|---|---|---|
| #18+ Master_Detail Помимо стандартных реляционок хотим использовать MPP, колоночные СУБД, NoSQL может, еще что-то актуальное. Но опыта построения архитектуры и взаимодействия этого зоопарка у нас нет.  обычно при построении DWH используется не зоопарк, а одна СУБД. Можно взять MPP, можно колонку. Сейчас по-моему все MPP колоночные. Так как MPP и колонки это те же реляционные БД, что и раньше, то там используют те же архитектуры - звезды, снежинки, дата волты. Вобщем-то и всё. Иногда перед этим хадуп ставят и называют дата лейком. Как там по архитектуре, можно Инмона почитать. Но строгой какой-то схемы нет, как я понимаю, потому что там обычно всё равно мусор валяется. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 13.02.2021, 01:45 |  | ||
| 
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее | |||
|---|---|---|---|
| #18+ у нас практически все переехало в Data Lake хадуп. там и ETL, кафка, основное хранилище и часть витрин. в качестве MPP базы для хадуп витрин - Impala. вторая часть, для агрегированной ad-hoc отчетности, в Vertica. поверх вертики BO и Qlik у Инмона, да, хорошая книжка Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump. но так и не понял как книжка теперь считается с пургой, что он в блог понаписал. в книге он говорит, что реляционные данные в DL надо класть в комон схеме, приближенной к тем структурам в каких источник свое барахло хранит. он это называет application pond, мы пришли примерно к той же схеме. а, если надо что-то очень быстро протолкнуть, то в процессе ETL это что-то пропихивать в кафку. я видел у PowerBI в облаке стриминг отчеты есть, как я понял стриминг источники PowerBI совместимы с кафкой и отчет может отображать то что ETL в кафку валит. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 13.02.2021, 12:10 |  | ||
| 
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее | |||
|---|---|---|---|
| #18+ H5N1 но так и не понял как книжка теперь считается с пургой, что он в блог понаписал.  *сочетается ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 13.02.2021, 12:25 |  | ||
| 
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее | |||
|---|---|---|---|
| #18+ любой современный BI может "провалиться" из агрегата в другую базу, которой может быть MPP с деталькой другой вопрос, что эта деталька в 99% случаев нафиг никому не сдалась, по крайней мере живым людям. В телекоме про нее спрашивают только безопасники при расследованиях. А так она только алгоритмам нужна, а им не надо мешать агрегаты с деталькой, поэтому системы могут существовать автономно. Залили DDL, сагрегировали, положили в витрины и все. ... | |||
| : 
 Нравится:
     Не нравится:
     | |||
| 15.02.2021, 20:19 |  | ||
|  | 

| start [/forum/topic.php?fid=49&fpage=5&tid=1857189]: | 0ms | 
| get settings: | 11ms | 
| get forum list: | 13ms | 
| check forum access: | 5ms | 
| check topic access: | 5ms | 
| track hit: | 53ms | 
| get topic data: | 15ms | 
| get forum data: | 3ms | 
| get page messages: | 52ms | 
| get tp. blocked users: | 2ms | 
| others: | 233ms | 
| total: | 392ms | 

| 0 / 0 | 
