Гость
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Использование высоконагруженной OLTP как источник для DWH / 18 сообщений из 18, страница 1 из 1
01.04.2021, 11:47
    #40058815
MadBox
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
Есть высоконагруженная транзакционная система, 24/4, БД Oracle. Нужно загружать информацию в DWH (Oracle), используем для этого Informatica PC. Проблема в том, что выполнение каких-либо тяжелых запросов на этих БД исключено.
Пока придумал 2 возможных варианта загрузки:
1) реплика базы открывается на чтение и ETL подключается к репликам. По ряду причин этот вариант не подходит.
2) выполняем много простых запросов ETL и уже join, очистку данных выполняем в ETL.

Какие еще возможны решения для подобной ситуации?
...
Рейтинг: 0 / 0
01.04.2021, 12:23
    #40058834
Ivan Durak
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
реплику настроить на базу двх - и сразу и получишь все сырые данные себе
...
Рейтинг: 0 / 0
01.04.2021, 12:34
    #40058840
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
MadBox
Какие еще возможны решения для подобной ситуации?
А что мешает используя CDC (ту же IPC) выгрузить часть данных еще в одну базу?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
01.04.2021, 14:04
    #40058873
MadBox
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
George Nordic,
в первую очередь отсутствие знаний о существовании этой технологии. Почитал про GoldenGate, DBA как-то не поделились таким вариантом.

Спасибо за идею.
...
Рейтинг: 0 / 0
01.04.2021, 14:32
    #40058879
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
MadBox
Почитал про GoldenGate
Дык, она стоит как крыло самолета.

1. У вас уже есть Informatica, у них же есть CDC?
2. Есть opensource, тот же Debezeum
3. Ну и у меня есть CDC -Attunity Replicator, в Гартнерах, все дела. Если надо попробовать - обращайтесь, представлю коллегам.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
01.04.2021, 14:36
    #40058881
George Nordic
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
MadBox
DBA как-то не поделились таким вариантом.
Тут дело такое... при любом CDC надо включать расширенное логирование. DBA это ой как не по нраву
...
Рейтинг: 0 / 0
02.04.2021, 11:02
    #40059026
Master_Detail
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
Вариант реплицировать необходимые схемы данных с вашей OLTP в вашу БД ХД тоже не подходит? Если не секрет, то почему? Это был бы самый простой вариант. Настроить можно через Oracle Streams и без OGG и CDC IPC (правда, тут от версии БД зависит. Кажись, на 12+ такой вариант не пойдет).

Второй вариант из вашего списка - как бы правильный с точки зрения сервера IPC. Но на практике не факт, что вас устроит время работы ваших процессов, где все джойны, фильтры будут делаться на уровне IPC, а не БД. Ведь, как часто бывает, маппинги в IPC становятся объектами, где разработчик в SQ помещает большой запрос к БД, зная, что на БД он вернет данные быстрее (скорее всего), чем при переписывании логики

И еще вопрос - наверняка, у вашей OLTP есть stand by. А не него смотреть и его грузить запросами тоже нельзя?
...
Рейтинг: 0 / 0
02.04.2021, 11:17
    #40059035
sergeyns
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
George Nordic
MadBox
DBA как-то не поделились таким вариантом.
Тут дело такое... при любом CDC надо включать расширенное логирование. DBA это ой как не по нраву

По хорошему оно и так должно быть.. они же хотят восстановить базу в случае падения? Хотя, зачастую, делают simple recovery и backup по ночам и "нам проще бухгалтерам сказать чтобы проводки за последний день заново занесли..."
...
Рейтинг: 0 / 0
04.04.2021, 15:37
    #40059567
MadBox
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
Master_Detail,

"Вариант реплицировать необходимые схемы данных с вашей OLTP в вашу БД ХД тоже не подходит?" как понимаю создаст доп. нагрузку на базу. Кроме этого OLTP в PCI DSS, а ХД нет, в любом случае между OLTP и ХД нужна будет "прослойка" которая будет обезличивать некоторые данные. Да, есть база в stand by, но опять же на нее нельзя смотреть.

На самом деле вариант использования CDC с архитектурной точки зрения мне кажется более правильным. Ну и просто интересно попробовать новый инструмент, пока в песочнице буду разворачивать Debezeum.
...
Рейтинг: 0 / 0
12.04.2021, 08:06
    #40061564
a_voronin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
George Nordic
MadBox
Какие еще возможны решения для подобной ситуации?
А что мешает используя CDC (ту же IPC) выгрузить часть данных еще в одну базу?

С Уважением,
Георгий


Это проблемное решение. Лучше использовать RowVersion для MS SQL. В любом случае вычленение инкремента это искусство в разработке dwh.
...
Рейтинг: 0 / 0
12.04.2021, 10:00
    #40061596
Ivan Durak
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
Есть высоконагруженная транзакционная система, 24/4, БД Oracle.


a_voroninЭто проблемное решение. Лучше использовать RowVersion для MS SQL.
Понятно что оракл это одна большая проблема.... но вот так сразу на Майки переходить?
...
Рейтинг: 0 / 0
12.04.2021, 15:23
    #40061735
a_voronin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
Ivan Durak
Есть высоконагруженная транзакционная система, 24/4, БД Oracle.


a_voroninЭто проблемное решение. Лучше использовать RowVersion для MS SQL.
Понятно что оракл это одна большая проблема.... но вот так сразу на Майки переходить?

Есть хеш. Мне вот доводилось выгружать вообще никак не маркированные данные с SAP HANA.

Вот посмотрите как этот делается
YouTube Video
...
Рейтинг: 0 / 0
17.04.2021, 20:14
    #40063419
artel.dev
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
MadBox,

Если один раз сделать полную копию нужных вам таблиц

То раз в сутки, ночью, при минимальной нагрузке на OLTP:
- из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт
- из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания

Транзакции иногда правятся задним числом, поэтому раз в неделю рекомендуется обновлять таблицы транзакий, скажем за крайний месяц
...
Рейтинг: 0 / 0
20.05.2021, 12:45
    #40071634
Кесарь
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
MadBox
Есть высоконагруженная транзакционная система, 24/4, БД Oracle. Нужно загружать информацию в DWH (Oracle), используем для этого Informatica PC. Проблема в том, что выполнение каких-либо тяжелых запросов на этих БД исключено.
Пока придумал 2 возможных варианта загрузки:
1) реплика базы открывается на чтение и ETL подключается к репликам. По ряду причин этот вариант не подходит.
2) выполняем много простых запросов ETL и уже join, очистку данных выполняем в ETL.


1. У вас нет возможности создать реплику или нет возможности читать из неё?

2. "Много простых запросов". А что значит "простой запрос" в данном случае? Простой запрос выдаёт большой объём данных, так как вам нужны например транзакциии на день. И всё встаёт колом.

Или имеется в виду запрос на часть данных, и так постоянно? ИМХО лучше репликацию настроить прямо в свою среду, как уже выше советовали.
...
Рейтинг: 0 / 0
20.05.2021, 12:50
    #40071637
Кесарь
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
artel.dev
MadBox,

Если один раз сделать полную копию нужных вам таблиц

То раз в сутки, ночью, при минимальной нагрузке на OLTP:
- из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт
- из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания


Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный.

Но не видел примеров такого решения. Видимо как раз из-за затратности?
...
Рейтинг: 0 / 0
20.05.2021, 14:58
    #40071685
Ivan Durak
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
Кесарь
artel.dev
MadBox,

Если один раз сделать полную копию нужных вам таблиц

То раз в сутки, ночью, при минимальной нагрузке на OLTP:
- из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт
- из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания


Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный.

Но не видел примеров такого решения. Видимо как раз из-за затратности?

полно таких примеров. Это де факто стандарт.
...
Рейтинг: 0 / 0
20.05.2021, 15:47
    #40071708
Кесарь
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
Ivan Durak
Кесарь
пропущено...

Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный.

Но не видел примеров такого решения. Видимо как раз из-за затратности?

полно таких примеров. Это де факто стандарт.


Ну значит я работал в нестандартных местах.
...
Рейтинг: 0 / 0
21.05.2021, 11:56
    #40071899
a_voronin
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Использование высоконагруженной OLTP как источник для DWH
Кесарь
Ivan Durak
пропущено...

полно таких примеров. Это де факто стандарт.


Ну значит я работал в нестандартных местах.


Вам надо начать с того, что понять что такое DWH и что такое OLTP.

Первый принцип DWH -- DWH это отдельная БД. Если вы не согласны с этим, если вам не дают на это ресурсов, если это это все трудоемко или лень, то вы не работает в сфере DWH. И что бы вы не придумали, это что-то будет создавать проблемы для регулярной транзакционной активности на исходной БД.
...
Рейтинг: 0 / 0
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Использование высоконагруженной OLTP как источник для DWH / 18 сообщений из 18, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]