|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
Есть высоконагруженная транзакционная система, 24/4, БД Oracle. Нужно загружать информацию в DWH (Oracle), используем для этого Informatica PC. Проблема в том, что выполнение каких-либо тяжелых запросов на этих БД исключено. Пока придумал 2 возможных варианта загрузки: 1) реплика базы открывается на чтение и ETL подключается к репликам. По ряду причин этот вариант не подходит. 2) выполняем много простых запросов ETL и уже join, очистку данных выполняем в ETL. Какие еще возможны решения для подобной ситуации? ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2021, 11:47 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
реплику настроить на базу двх - и сразу и получишь все сырые данные себе ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2021, 12:23 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
MadBox Какие еще возможны решения для подобной ситуации? С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2021, 12:34 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
George Nordic, в первую очередь отсутствие знаний о существовании этой технологии. Почитал про GoldenGate, DBA как-то не поделились таким вариантом. Спасибо за идею. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2021, 14:04 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
MadBox Почитал про GoldenGate 1. У вас уже есть Informatica, у них же есть CDC? 2. Есть opensource, тот же Debezeum 3. Ну и у меня есть CDC -Attunity Replicator, в Гартнерах, все дела. Если надо попробовать - обращайтесь, представлю коллегам. С Уважением, Георгий ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2021, 14:32 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
MadBox DBA как-то не поделились таким вариантом. ... |
|||
:
Нравится:
Не нравится:
|
|||
01.04.2021, 14:36 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
Вариант реплицировать необходимые схемы данных с вашей OLTP в вашу БД ХД тоже не подходит? Если не секрет, то почему? Это был бы самый простой вариант. Настроить можно через Oracle Streams и без OGG и CDC IPC (правда, тут от версии БД зависит. Кажись, на 12+ такой вариант не пойдет). Второй вариант из вашего списка - как бы правильный с точки зрения сервера IPC. Но на практике не факт, что вас устроит время работы ваших процессов, где все джойны, фильтры будут делаться на уровне IPC, а не БД. Ведь, как часто бывает, маппинги в IPC становятся объектами, где разработчик в SQ помещает большой запрос к БД, зная, что на БД он вернет данные быстрее (скорее всего), чем при переписывании логики И еще вопрос - наверняка, у вашей OLTP есть stand by. А не него смотреть и его грузить запросами тоже нельзя? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.04.2021, 11:02 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
George Nordic MadBox DBA как-то не поделились таким вариантом. По хорошему оно и так должно быть.. они же хотят восстановить базу в случае падения? Хотя, зачастую, делают simple recovery и backup по ночам и "нам проще бухгалтерам сказать чтобы проводки за последний день заново занесли..." ... |
|||
:
Нравится:
Не нравится:
|
|||
02.04.2021, 11:17 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
Master_Detail, "Вариант реплицировать необходимые схемы данных с вашей OLTP в вашу БД ХД тоже не подходит?" как понимаю создаст доп. нагрузку на базу. Кроме этого OLTP в PCI DSS, а ХД нет, в любом случае между OLTP и ХД нужна будет "прослойка" которая будет обезличивать некоторые данные. Да, есть база в stand by, но опять же на нее нельзя смотреть. На самом деле вариант использования CDC с архитектурной точки зрения мне кажется более правильным. Ну и просто интересно попробовать новый инструмент, пока в песочнице буду разворачивать Debezeum. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.04.2021, 15:37 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
George Nordic MadBox Какие еще возможны решения для подобной ситуации? С Уважением, Георгий Это проблемное решение. Лучше использовать RowVersion для MS SQL. В любом случае вычленение инкремента это искусство в разработке dwh. ... |
|||
:
Нравится:
Не нравится:
|
|||
12.04.2021, 08:06 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
Есть высоконагруженная транзакционная система, 24/4, БД Oracle. a_voroninЭто проблемное решение. Лучше использовать RowVersion для MS SQL. Понятно что оракл это одна большая проблема.... но вот так сразу на Майки переходить? ... |
|||
:
Нравится:
Не нравится:
|
|||
12.04.2021, 10:00 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
Ivan Durak Есть высоконагруженная транзакционная система, 24/4, БД Oracle. a_voroninЭто проблемное решение. Лучше использовать RowVersion для MS SQL. Понятно что оракл это одна большая проблема.... но вот так сразу на Майки переходить? Есть хеш. Мне вот доводилось выгружать вообще никак не маркированные данные с SAP HANA. Вот посмотрите как этот делается ... |
|||
:
Нравится:
Не нравится:
|
|||
12.04.2021, 15:23 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
MadBox, Если один раз сделать полную копию нужных вам таблиц То раз в сутки, ночью, при минимальной нагрузке на OLTP: - из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт - из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания Транзакции иногда правятся задним числом, поэтому раз в неделю рекомендуется обновлять таблицы транзакий, скажем за крайний месяц ... |
|||
:
Нравится:
Не нравится:
|
|||
17.04.2021, 20:14 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
MadBox Есть высоконагруженная транзакционная система, 24/4, БД Oracle. Нужно загружать информацию в DWH (Oracle), используем для этого Informatica PC. Проблема в том, что выполнение каких-либо тяжелых запросов на этих БД исключено. Пока придумал 2 возможных варианта загрузки: 1) реплика базы открывается на чтение и ETL подключается к репликам. По ряду причин этот вариант не подходит. 2) выполняем много простых запросов ETL и уже join, очистку данных выполняем в ETL. 1. У вас нет возможности создать реплику или нет возможности читать из неё? 2. "Много простых запросов". А что значит "простой запрос" в данном случае? Простой запрос выдаёт большой объём данных, так как вам нужны например транзакциии на день. И всё встаёт колом. Или имеется в виду запрос на часть данных, и так постоянно? ИМХО лучше репликацию настроить прямо в свою среду, как уже выше советовали. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2021, 12:45 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
artel.dev MadBox, Если один раз сделать полную копию нужных вам таблиц То раз в сутки, ночью, при минимальной нагрузке на OLTP: - из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт - из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный. Но не видел примеров такого решения. Видимо как раз из-за затратности? ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2021, 12:50 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
Кесарь artel.dev MadBox, Если один раз сделать полную копию нужных вам таблиц То раз в сутки, ночью, при минимальной нагрузке на OLTP: - из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт - из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный. Но не видел примеров такого решения. Видимо как раз из-за затратности? полно таких примеров. Это де факто стандарт. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2021, 14:58 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
Ivan Durak Кесарь пропущено... Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный. Но не видел примеров такого решения. Видимо как раз из-за затратности? полно таких примеров. Это де факто стандарт. Ну значит я работал в нестандартных местах. ... |
|||
:
Нравится:
Не нравится:
|
|||
20.05.2021, 15:47 |
|
Использование высоконагруженной OLTP как источник для DWH
|
|||
---|---|---|---|
#18+
Кесарь Ivan Durak пропущено... полно таких примеров. Это де факто стандарт. Ну значит я работал в нестандартных местах. Вам надо начать с того, что понять что такое DWH и что такое OLTP. Первый принцип DWH -- DWH это отдельная БД. Если вы не согласны с этим, если вам не дают на это ресурсов, если это это все трудоемко или лень, то вы не работает в сфере DWH. И что бы вы не придумали, это что-то будет создавать проблемы для регулярной транзакционной активности на исходной БД. ... |
|||
:
Нравится:
Не нравится:
|
|||
21.05.2021, 11:56 |
|
|
start [/forum/topic.php?fid=49&msg=40058879&tid=1857137]: |
0ms |
get settings: |
11ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
37ms |
get topic data: |
11ms |
get forum data: |
3ms |
get page messages: |
54ms |
get tp. blocked users: |
1ms |
others: | 15ms |
total: | 154ms |
0 / 0 |