Datastage несколько джобов или один. / IBM DB2, WebSphere, IMS, U2

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / IBM DB2, WebSphere, IMS, U2 [игнор отключен] [закрыт для гостей] / Datastage несколько джобов или один.

2 сообщений из 2, страница 1 из 1

Datastage несколько джобов или один.

#38352683

Sintetik

Участник

Откуда: SpB->Msk->...

Сообщения: 9 088

Рейтинг: 0 / 0

Из таблицы источника нужно заполнить несколько таблиц, в стэджинге и DWH. Можно сделать несколько элементарных джобов или один посложнее с последовательными переливами, копированием датасета. Что методологически более правильно?
В ODI|OWB такого вопроса в принципе не стояло, один маппинг-одна целевая таблица, а тут можно гораздо больше наворотить.

...

Рейтинг:

0 / 0

02.08.2013, 12:12

| Ответить | Цитировать | Написать

Datastage несколько джобов или один.

#38352870

Hunterik

Участник

Сообщения: 474

Рейтинг: 0 / 0

Здравствуйте...
Раз выбор есть, то действовать надо по ситуации...
Имейте в виду, что чем больше элементов в задании и больше потоков обработки, тем больше процессов операционной системы порождается для одного конкретного задания, что с учётом времени на утряску IPC приводит к увеличенному времени старта задания.

Если Staging используется в качестве корзины - можете в одно задание затолкать...
Например такую связку на каждый входной файл: Sequential File (читаем строку одним куском) -> Column Import -> DB
Можно Sequential File -> [Copy | Parallel Transformer (проверить, утрясти типы данных)] -> DB.
Если же нужны какие-то доп.преобразования, которые приводят к увеличению количества элементов для обработки одного входного файла - стоит подумать о разнесении по разным заданиям. Опять же - смотря как/чем данные заливать (bulk insert, loader-ы)...

По загрузке DWH разные подходы есть.
Если у вас ХД одни и те же таблицы заполняются из нескольких источников,тогда имеет смысл оформить загрузчики отдельными маленькими заданиями потаблично (Dataset -> [Copy | Tfm]) -> DB), сделать задания мультиинстанционными, чтобы с разными идентификаторами и параметрами можно было одновременно запускать из разных сиквенсов.

При заливке в DWH я обычно сразу в конечные таблицы не заливаю данные в любом случае, а приземляю их в Dataset-ы...
Почему? Ну потому задания работают, как конвейеры, и может так получиться, что часть данных в таблицу уже залилось, а на одной из последних строк вы словили ошибку, которая привела к аварийному завершению задания.
Тогда может так случится, что на основании полученной ошибки понимаешь, что то, что залито - тоже может быть грязно, и нужно очищать частично залитые данные... Редко, но бывает, меняются форматы входных данных, меняется источник - появляются какие-то неучтённые нюансы.
Если бы вы предварительно сохраняли в Dataset, то вычищать было бы ничего не нужно.

Кроме того, если сделать сложное задание по преобразованию данных (большое количество элементов, потребляемых ресурсов RAM/CPU) с прямой заливкой в базу, то в случае, если заливка будет подтормаживать от коннектора элементам назад пойдёт своеобразный сигнал обратной связи - притормозите, братцы, ну даже просто занятость ресурсов сервера на всём протяжении заливки - не есть хорошо.
Если задание потребляет много ресурсов сервера - другим заданиям остаётся меньше... =) Гораздо проще может быть выполнить быстро задание по преобразованию и положить подготовленные данные на диск, после чего задание завершается, освобождая ресурсы сервера, а маленький загрузчик уже читает подготовленный набор и заливает в базу.

Если найдутся те, кто скажет: "Ну как же, зачем на диск лишний раз укладывать? Лишний ввод/вывод..." , - ну, я же не прошу мельчить, а какие-то контрольные точки делать всё равно приходится, логика требует.

Количество данных, как Вы понимаете, тоже влияет на выбор подхода... Если у вас копейки - то мельчить смысла никакого.

С DataStage нет абсолютных вариантов решения.
Его можно вертеть, как хочешь, выбирая то, что лучше подходит под конкретную задачу. =)
Пишите, пробуйте, поменять всё можно достаточно просто.

...

Рейтинг:

0 / 0

02.08.2013, 13:26

| Ответить | Цитировать | Написать

2 сообщений из 2, страница 1 из 1

Форумы / IBM DB2, WebSphere, IMS, U2 [игнор отключен] [закрыт для гостей] / Datastage несколько джобов или один.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=43&msg=38352870&tid=1601373]:	0ms
get settings:	7ms
get forum list:	12ms
check forum access:	2ms
check topic access:	2ms
track hit:	46ms
get topic data:	6ms
get forum data:	2ms
get page messages:	24ms
get tp. blocked users:	1ms
others:	237ms

total:	339ms