powered by simpleCommunicator - 2.0.51     © 2025 Programmizd 02
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
6 сообщений из 6, страница 1 из 1
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
    #40044949
Master_Detail
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Господа-товарищи, тема скорее для этой ветки, чем для архитектуры БД, ибо вопрос все же концептуально по DWH.

Имею опыт построения традиционных реляционных DWH (Oracle, звезда, снежинка, ETL на всяких Informatica-подобных, BI на выходе для отчетности).
Хотелось бы получить информацию по практическому применению разного рода СУБД при построении архитектуры ХД для максимального ускорения процессов загрузки, оптимизации хранения и скорости отдачи данных всякого рода клиентам (в первую очередь юзерам в виде отчетов).

Скажем, представим, что у нас банк. Данные, как и предметные области во всех банках на 99% одинаковые. Помимо стандартных реляционок хотим использовать MPP, колоночные СУБД, NoSQL может, еще что-то актуальное. Но опыта построения архитектуры и взаимодействия этого зоопарка у нас нет. Но при этом мы хотим дать клиентам данные как можно быстрее и в больших объемах. В связи с этим вопросы:
- не могли бы описать свой опыт в вопросе взаимодействия зоопарка. Что и как работает, за что отвечает?
- если говорить про банковские данные, какие данные и куда (в какую СУБД) стоит поместить? Общее понимание вроде есть, но вот если бы на конкретных примерах типа "остатки храним там то, справочники вот здесь, потом все это как-то вяжем между собой и отдаем клиенту и главное - почему делаем именно так", был бы очень благодарен

Понимаю, что тема немного холиварная в том числе от того, что вопросы очень обобщенные. Но, в связи с тем, что пока нет опыта в подобной архитектуре, то и поверхностной информации об инфраструктуре было бы достаточно.

Благодарю!
...
Рейтинг: 0 / 0
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
    #40045014
Фотография Критик
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Master_Detail,

>>остатки храним там то, справочники вот здесь

Ээ, вы имеете ввиду разные СУБД? Или что?

Имхо конечно, но если у вас не банк из топ10 (а у вас не он, раз имеются такие вопросы), то используйте стандартную архитектуру, вам ее лет на 10-15 хватит

Ps обычно факты бьются с помощью хэша по отдельным машинам mpp, а справочники везде дублируются, в результате все нужные джойны происходят параллельно, а потом результат объединяется
...
Рейтинг: 0 / 0
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
    #40045024
Бумбараш
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Master_Detail
Помимо стандартных реляционок хотим использовать MPP, колоночные СУБД, NoSQL может, еще что-то актуальное. Но опыта построения архитектуры и взаимодействия этого зоопарка у нас нет.

обычно при построении DWH используется не зоопарк, а одна СУБД. Можно взять MPP, можно колонку. Сейчас по-моему все MPP колоночные. Так как MPP и колонки это те же реляционные БД, что и раньше, то там используют те же архитектуры - звезды, снежинки, дата волты. Вобщем-то и всё.

Иногда перед этим хадуп ставят и называют дата лейком. Как там по архитектуре, можно Инмона почитать. Но строгой какой-то схемы нет, как я понимаю, потому что там обычно всё равно мусор валяется.
...
Рейтинг: 0 / 0
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
    #40045043
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
у нас практически все переехало в Data Lake хадуп. там и ETL, кафка, основное хранилище и часть витрин. в качестве MPP базы для хадуп витрин - Impala. вторая часть, для агрегированной ad-hoc отчетности, в Vertica. поверх вертики BO и Qlik

у Инмона, да, хорошая книжка Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump. но так и не понял как книжка теперь считается с пургой, что он в блог понаписал. в книге он говорит, что реляционные данные в DL надо класть в комон схеме, приближенной к тем структурам в каких источник свое барахло хранит. он это называет application pond, мы пришли примерно к той же схеме.
а, если надо что-то очень быстро протолкнуть, то в процессе ETL это что-то пропихивать в кафку. я видел у PowerBI в облаке стриминг отчеты есть, как я понял стриминг источники PowerBI совместимы с кафкой и отчет может отображать то что ETL в кафку валит.
...
Рейтинг: 0 / 0
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
    #40045048
H5N1
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
H5N1
но так и не понял как книжка теперь считается с пургой, что он в блог понаписал.

*сочетается
...
Рейтинг: 0 / 0
Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
    #40045597
Sintetik
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
любой современный BI может "провалиться" из агрегата в другую базу, которой может быть MPP с деталькой
другой вопрос, что эта деталька в 99% случаев нафиг никому не сдалась, по крайней мере живым людям. В телекоме про нее спрашивают только безопасники при расследованиях. А так она только алгоритмам нужна, а им не надо мешать агрегаты с деталькой, поэтому системы могут существовать автономно. Залили DDL, сагрегировали, положили в витрины и все.
...
Рейтинг: 0 / 0
6 сообщений из 6, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Архитектура DWH где есть RDBMS, MPP, колоночные СУБД и все прочее
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]