powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Где истина?
9 сообщений из 9, страница 1 из 1
Где истина?
    #32377929
Фотография Quark
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В последнее время собираю остатки информации за начало 90-х годов для загрузки в хранилище. Фирматогда была еще молодая и данных мало.

Схема такая: архив старой БД-копия архива в MSSQL(А)-Хранилище данных(Б)
Данные обновляются каждую ночь.
Из пути А в Б есть два варианта трансформации, в связи с тем что измерения часто меняются. Есть три варианта решения.
1. Делать трансформацию каждый день.
Плюсы: меньше кода, меньше работы
Минусы: логически думаю некрасиво
2. Делать перетрансформацию только изменившихся измерений
Плюсы: быстрее
Минусы: больше кода, больше работы
3. Создать уник коды и ежедневно привязывать уник коды к требуемым листьям.
Так советует Макрософт делать для больших таблиц фактов. Поэтому данный вариант можно не рассматривать в силу того что таблицы фактов маленькие.

Склоняюсь к варианту 1, но понимаю что ежели в будущем будет необходимо еще часоне обновление, то придется переписывать в 2 или 3. Но еще часное в ближайшие 6 месяцев точно не надо будет.

А как вы бы поступили?
...
Рейтинг: 0 / 0
Где истина?
    #32377933
Фотография Quark
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
сорри,
еще часоне = ежечасное
два варианта трансформации=три варианта трансформации
...
Рейтинг: 0 / 0
Где истина?
    #32377934
GoodLeo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Так почему данные часто меняются если данные 90-ых годов?
...
Рейтинг: 0 / 0
Где истина?
    #32377955
Фотография Quark
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Меняются измерения.

Например есть клиент, товар итп
Сегодня он в одной группе, завтра в другой.
Сегодня например это один элемент, завтра его надо переименовать в другой,
соотвественно все старые данные по алгориту уйдут в другие исторические иерархии. итп.

И по части измерений необходимо исторические данные тоже подгонять под текущее положение их в иерархии.
...
Рейтинг: 0 / 0
Где истина?
    #32378160
GoodLeo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Туплю наверное, но всё же.
Если меняется взамоположение/наименование членов измерений, то зачем же тогда повторная выгрузка данных?
Наверное нужно связывать члены измерений со "старыми" дынными по каком - нибудь ID. И пусть себе всё меняется, данные то тут не причём.
Если по Id не связаны а связаны по именам, то проще в старой БД создать поле Id в который один раз загнать id`ы членов измерений.
В принципе Вы наверное это и предпологали в фразе "3. Создать уник коды и ежедневно привязывать уник коды к требуемым листьям. "
Тока опять же зачем ежедневно привязывать уник коды к листьям?
...
Рейтинг: 0 / 0
Где истина?
    #32378279
Фотография Quark
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ты прав, именно так и указывает делать Майкрософт.
Но тогда получается необходим дополнительный уровень иерархии
то есть Реальный объект - Уникальные коды его в различных таблицах фактов.

Просто оценив объемы моих таблиц фактов я решил в некоторых кубах привязываться напрямую к Объекту, что конечно и породило данные проблемы, но зато экономит место.

Просто считай хранилище всего лишь пока 25Гб, и таблицы факты которых необходимо перекрыживать более чем на 2,5Гб не встречаются.
И думаю что прирост перекрыживаемых таблиц фактов для этих кубов будет макс 0,5Гб в год.
...
Рейтинг: 0 / 0
Где истина?
    #32378315
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Quark

Ваша проблема, если я правильно понял называется "Медленно меняющиеся измерения" или Slow Changing Dimensions
Существует несколько их типов и к каждому типу существует стандартный метод работы.
Советую поискать по ключевым словам Slow Changing Dimensions или, если есть, почитать главу по ним в книжке Ральфа Кимбала (Ralph Kimball) The Data Warehouse Toolkit.
...
Рейтинг: 0 / 0
Где истина?
    #32378332
GoodLeo
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В гигабайтах сложно оценить объём, но хранилище в 25ГБ - вообще то не слабо, на мой взгляд.
Не совсем понял про дополнительный уровень.
Ну вот есть у тебя какой - то "центральный справочник" в котором храняться все потенциальные члены измерений. Наверника в нём есть какой - то Id.
Пропиши его один раз в старой базе - и всё. Это не всегда просто, зато один раз и на долго.
Да, к стати, после этого, когда ты хранилище данных зальёш старую базу то он больше и не нужна будет.
Измерение строишь по "Центральному справочнику" таблицы которого связываешь по Id с полями таблиц фактов.
Классическая и как мне кажется - простая и удобная идеология.
А как уже там будут взаимно перемещаться члены в "Центральном справочнике" - таблице фактов абсолютно по барабану.
...
Рейтинг: 0 / 0
Где истина?
    #32378376
Фотография Quark
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2Birkhoff
Спасибо, эту статью читал пару месяцев назад.
К сожалению у меня быстроменяющиеся измерения.
Оператор нажимает на кнопку и пару сотен листьев в одну группу,через неделю он их в другую группу итп.

По той статье сделал еще несколько измерений в которых хранится история.
ТО есть Ветка1-Листок1_20030101; Ветка2_Листок1_20040101 итп

2GoodLeo
Спасибо, буду думать в таком измерении. Но немного не то так как
уникальный код у меня в виде Fullpath,
( а не просто id, поэтому при процессинге строится заново, но поиск в старых идет по его "shortpath",заодно сортируются ошибки дублирования.)
так проще понимается, но видимо придется получше это рассмотреть.
...
Рейтинг: 0 / 0
9 сообщений из 9, страница 1 из 1
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Где истина?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]