Гость
Целевая тема:
Создать новую тему:
Автор:
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Наполнение Хранилища / 13 сообщений из 13, страница 1 из 1
07.10.2003, 14:47
    #32286352
Предводитель команчей
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
Добрый день.
Вот хочу узнать как уважаемый all пополняет свои хранилища данных. Собственно вариантов не так уж и много - репликация, DTS, скрипты. Речь идет о объемах данных больше среднего, например у меня за текущий год около 10 млн. записей в таблице фактов. Я заливаю данные в хранилище при помощи DTS за последние две недели (т.к. данные могут поменяться задним числом). Хочется узнать какова стандартная практика для выполнения этой процедуры и какие требования предъявляются ко времени загрузки данных такого объема. У меня процедура загрузки, построения таблицы фактов и процессинга занимает 4-6 часов и выполняется каждую ночь.
...
Рейтинг: 0 / 0
07.10.2003, 15:01
    #32286374
Вжик
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
А OLTP система после подгрузки данных в хранилище подрезается ?
...
Рейтинг: 0 / 0
07.10.2003, 15:07
    #32286393
Предводитель команчей
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
2Вжик
Если вы имеете ввиду удаляются ли данные из хранилища за последние 2 недели перед загрузкой то да.
...
Рейтинг: 0 / 0
07.10.2003, 15:12
    #32286399
Вжик
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
Наоборот, я имею в виду транзакционная система режется после передачи данных в хранилище ? Зачем вообще хранилище ?
...
Рейтинг: 0 / 0
07.10.2003, 15:15
    #32286412
Предводитель команчей
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
2Вжик
Нет у меня OLTP не урезается, эти данные нужны для прочих славных дел.
...
Рейтинг: 0 / 0
07.10.2003, 15:16
    #32286416
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
Наоборот, я имею в виду транзакционная система режется после передачи данных в хранилище ? Зачем вообще хранилище ?

Вот вот, хороший вопрос :) Зачем нужно хранилище? Вы его используете просто как склад данных, из которого MS AS может удобно вкачивать в себя данные, или причина другая?

Лично я предпочитаю создавать кубы и online-отчеты на основе нормализованной структуры OLTP-системы (либо из живой базы, либо из ее копии).
...
Рейтинг: 0 / 0
07.10.2003, 15:29
    #32286446
Предводитель команчей
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
2Jurii
В моем случае хранилище это то место куда сливаются данные из OLTP источников (есть выделенный сервер для этих дел, потому как грузить основной SQL сервер дальше некуда), затем на основании слитых данных строятся таблицы фактов, затем процессинг кубов. OLTP источники не урезаются. Дело в том, что есть куча софта, который ваяли годами, основывающийся на OLTP. OLAP стали внедрять недавно - год назад.
В общем, как вы заметили, хранилище у меня это место откуда AS удобно вкачивать в себя данные.
...
Рейтинг: 0 / 0
07.10.2003, 16:01
    #32286530
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
To ПК:

4-6 часов каждую ночь - это многовато...

Более тонкий подход, это когда куб создается на конец последнего закрытого периода, и к нему подкачиваются данные из открытого периода.
...
Рейтинг: 0 / 0
07.10.2003, 16:13
    #32286549
Предводитель команчей
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
2Jurii

Более тонкий подход, это когда куб создается на конец последнего закрытого периода, и к нему подкачиваются данные из открытого периода


Я так и делаю (если я вас правильно понял). Т.е. имеются партиции - на каждый год своя. Самая длительная операция - создание таблиц фактов - где то 75 % от всего времени выполнения процесса. 10 % - это закачка данных, 15 % - процессинг куба (партиции).
Причем тормозить на создании основной таблицы фактов стало недавно, где то после перехода границы в 8 млн записей. Но это уже другая история. :-)
...
Рейтинг: 0 / 0
07.10.2003, 16:23
    #32286570
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
To ПК:

Хорошенькая партиция - размером с год...
Какова дата Вашего последнего закрытого периода - конец прошлого года, или 2 недели назад?
...
Рейтинг: 0 / 0
07.10.2003, 16:47
    #32286628
Предводитель команчей
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
2 Jurii
Последний закрытый период - прошлый год. Согласен, что это выглядит нерационально. Но на сегодняшний день меня это устраивает, хотя в ближайшем будущем все таки придется сделать партиции например на квартал - данные постоянно растут.
...
Рейтинг: 0 / 0
07.10.2003, 17:05
    #32286667
Jurii
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
To ПК:

Тогда придется смириться с невысокой скоростью обновления Ваших кубов.

У меня есть проекты, где в кубы закачиваются десятки миллионов записей. Основное время при обновлении кубов, как и у Вас, тратится на создание таблиц фактов (у Вас это наполнение хранилища, а у меня - выполнение запросов, которые соответствуют моим виртуальным вьюшкам). Так что нужно попытаться оптимизировать запросы, грамотно балансировать нагрузку между OLAP-сервером и SQL-сервером, проверить, не является ли узким местом сеть и т.п.
...
Рейтинг: 0 / 0
08.10.2003, 06:25
    #32286991
GoodLeo
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Наполнение Хранилища
Думаю что вариант сокращения времени построения таблицы фактов очевиден - загружать в таблицу фактов только изменённые данные.
Принцип в общих чертах таков:
1. В БД источника, при изменении документа, его номер записывается в спец таблицу.
2. DTS пакет загрузки данных в ТФ выгружает из БД источника данные только по изменённым документам.

Детальная проработка зависит от типов ИС.
У меня по такой технологии происходит обновление ТФ по расписанию в течении дня и один раз ночью. Обычно время обновление (с учётом последующей постобработки данных и их загрузки с региональных серверов) занимает не более 2-3 минут.
Процессинг кубов конечно же может занимать очень значительное время на таких объёмах данных. Но опять же, если Вы будете грузить только изменённые данные то вполне можно реализовать и Incremental Update куба. Правда в таком случае это скорее всего приведёт к стремительному росту ТФ.
...
Рейтинг: 0 / 0
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Наполнение Хранилища / 13 сообщений из 13, страница 1 из 1
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]