powered by simpleCommunicator - 2.0.44     © 2025 Programmizd 02
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Использование высоконагруженной OLTP как источник для DWH
18 сообщений из 18, страница 1 из 1
Использование высоконагруженной OLTP как источник для DWH
    #40058815
MadBox
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Есть высоконагруженная транзакционная система, 24/4, БД Oracle. Нужно загружать информацию в DWH (Oracle), используем для этого Informatica PC. Проблема в том, что выполнение каких-либо тяжелых запросов на этих БД исключено.
Пока придумал 2 возможных варианта загрузки:
1) реплика базы открывается на чтение и ETL подключается к репликам. По ряду причин этот вариант не подходит.
2) выполняем много простых запросов ETL и уже join, очистку данных выполняем в ETL.

Какие еще возможны решения для подобной ситуации?
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40058834
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
реплику настроить на базу двх - и сразу и получишь все сырые данные себе
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40058840
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MadBox
Какие еще возможны решения для подобной ситуации?
А что мешает используя CDC (ту же IPC) выгрузить часть данных еще в одну базу?

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40058873
MadBox
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
George Nordic,
в первую очередь отсутствие знаний о существовании этой технологии. Почитал про GoldenGate, DBA как-то не поделились таким вариантом.

Спасибо за идею.
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40058879
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MadBox
Почитал про GoldenGate
Дык, она стоит как крыло самолета.

1. У вас уже есть Informatica, у них же есть CDC?
2. Есть opensource, тот же Debezeum
3. Ну и у меня есть CDC -Attunity Replicator, в Гартнерах, все дела. Если надо попробовать - обращайтесь, представлю коллегам.

С Уважением,
Георгий
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40058881
Фотография George Nordic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MadBox
DBA как-то не поделились таким вариантом.
Тут дело такое... при любом CDC надо включать расширенное логирование. DBA это ой как не по нраву
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40059026
Master_Detail
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Вариант реплицировать необходимые схемы данных с вашей OLTP в вашу БД ХД тоже не подходит? Если не секрет, то почему? Это был бы самый простой вариант. Настроить можно через Oracle Streams и без OGG и CDC IPC (правда, тут от версии БД зависит. Кажись, на 12+ такой вариант не пойдет).

Второй вариант из вашего списка - как бы правильный с точки зрения сервера IPC. Но на практике не факт, что вас устроит время работы ваших процессов, где все джойны, фильтры будут делаться на уровне IPC, а не БД. Ведь, как часто бывает, маппинги в IPC становятся объектами, где разработчик в SQ помещает большой запрос к БД, зная, что на БД он вернет данные быстрее (скорее всего), чем при переписывании логики

И еще вопрос - наверняка, у вашей OLTP есть stand by. А не него смотреть и его грузить запросами тоже нельзя?
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40059035
sergeyns
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic
MadBox
DBA как-то не поделились таким вариантом.
Тут дело такое... при любом CDC надо включать расширенное логирование. DBA это ой как не по нраву

По хорошему оно и так должно быть.. они же хотят восстановить базу в случае падения? Хотя, зачастую, делают simple recovery и backup по ночам и "нам проще бухгалтерам сказать чтобы проводки за последний день заново занесли..."
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40059567
MadBox
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Master_Detail,

"Вариант реплицировать необходимые схемы данных с вашей OLTP в вашу БД ХД тоже не подходит?" как понимаю создаст доп. нагрузку на базу. Кроме этого OLTP в PCI DSS, а ХД нет, в любом случае между OLTP и ХД нужна будет "прослойка" которая будет обезличивать некоторые данные. Да, есть база в stand by, но опять же на нее нельзя смотреть.

На самом деле вариант использования CDC с архитектурной точки зрения мне кажется более правильным. Ну и просто интересно попробовать новый инструмент, пока в песочнице буду разворачивать Debezeum.
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40061564
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
George Nordic
MadBox
Какие еще возможны решения для подобной ситуации?
А что мешает используя CDC (ту же IPC) выгрузить часть данных еще в одну базу?

С Уважением,
Георгий


Это проблемное решение. Лучше использовать RowVersion для MS SQL. В любом случае вычленение инкремента это искусство в разработке dwh.
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40061596
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Есть высоконагруженная транзакционная система, 24/4, БД Oracle.


a_voroninЭто проблемное решение. Лучше использовать RowVersion для MS SQL.
Понятно что оракл это одна большая проблема.... но вот так сразу на Майки переходить?
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40061735
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak
Есть высоконагруженная транзакционная система, 24/4, БД Oracle.


a_voroninЭто проблемное решение. Лучше использовать RowVersion для MS SQL.
Понятно что оракл это одна большая проблема.... но вот так сразу на Майки переходить?

Есть хеш. Мне вот доводилось выгружать вообще никак не маркированные данные с SAP HANA.

Вот посмотрите как этот делается
YouTube Video
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40063419
artel.dev
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
MadBox,

Если один раз сделать полную копию нужных вам таблиц

То раз в сутки, ночью, при минимальной нагрузке на OLTP:
- из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт
- из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания

Транзакции иногда правятся задним числом, поэтому раз в неделю рекомендуется обновлять таблицы транзакий, скажем за крайний месяц
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40071634
Кесарь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
MadBox
Есть высоконагруженная транзакционная система, 24/4, БД Oracle. Нужно загружать информацию в DWH (Oracle), используем для этого Informatica PC. Проблема в том, что выполнение каких-либо тяжелых запросов на этих БД исключено.
Пока придумал 2 возможных варианта загрузки:
1) реплика базы открывается на чтение и ETL подключается к репликам. По ряду причин этот вариант не подходит.
2) выполняем много простых запросов ETL и уже join, очистку данных выполняем в ETL.


1. У вас нет возможности создать реплику или нет возможности читать из неё?

2. "Много простых запросов". А что значит "простой запрос" в данном случае? Простой запрос выдаёт большой объём данных, так как вам нужны например транзакциии на день. И всё встаёт колом.

Или имеется в виду запрос на часть данных, и так постоянно? ИМХО лучше репликацию настроить прямо в свою среду, как уже выше советовали.
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40071637
Кесарь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
artel.dev
MadBox,

Если один раз сделать полную копию нужных вам таблиц

То раз в сутки, ночью, при минимальной нагрузке на OLTP:
- из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт
- из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания


Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный.

Но не видел примеров такого решения. Видимо как раз из-за затратности?
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40071685
Ivan Durak
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кесарь
artel.dev
MadBox,

Если один раз сделать полную копию нужных вам таблиц

То раз в сутки, ночью, при минимальной нагрузке на OLTP:
- из таблиц транзакций копируются транзакции начиная с ID = N+1, где N - последний загруженный в DWH факт
- из таблиц-справочников копируются только те, в которых были изменения за крайние сутки, нужен столбец в OLTP c датой последнего изменения/создания


Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный.

Но не видел примеров такого решения. Видимо как раз из-за затратности?

полно таких примеров. Это де факто стандарт.
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40071708
Кесарь
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ivan Durak
Кесарь
пропущено...

Решение простое и эффективное, но затратное. По сути придётся в каждой таблице базы делать такое поле и индекс по нему. Прирост объёма приличный.

Но не видел примеров такого решения. Видимо как раз из-за затратности?

полно таких примеров. Это де факто стандарт.


Ну значит я работал в нестандартных местах.
...
Рейтинг: 0 / 0
Использование высоконагруженной OLTP как источник для DWH
    #40071899
Фотография a_voronin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кесарь
Ivan Durak
пропущено...

полно таких примеров. Это де факто стандарт.


Ну значит я работал в нестандартных местах.


Вам надо начать с того, что понять что такое DWH и что такое OLTP.

Первый принцип DWH -- DWH это отдельная БД. Если вы не согласны с этим, если вам не дают на это ресурсов, если это это все трудоемко или лень, то вы не работает в сфере DWH. И что бы вы не придумали, это что-то будет создавать проблемы для регулярной транзакционной активности на исходной БД.
...
Рейтинг: 0 / 0
18 сообщений из 18, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Использование высоконагруженной OLTP как источник для DWH
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]