powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Какие подводные камни бывают у больших DWH?
49 сообщений из 49, показаны все 2 страниц
Какие подводные камни бывают у больших DWH?
    #32644751
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всем привет,

Часто приходится в последнее время слышать, что где-то хранилище имеет размер 100 гигабайт, где-то - терабайты. Хранилище распухает зачастую по причине создания индексов, промежуточных таблиц. Есть ли у кого-нибудь мнение, стоит ли хранить все данные для анализа и отчетности в одной базе, или может лучше иметь много кубов среднего размера (использовать технологию MOLAP)? При этом я не исключаю, что будет большая реляционная БД, в которую данные будут собираться из разных источников, поддерживаться суррогатные ключи и т.п., но это реляционное хранилище будет использоваться только для хранения данных, будет служить источником для наполнения кубов.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32644929
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А в чем собственно проблемы?
Стоимость хранения гигабайта падает быстрее чем наполняется хранилище данных :-)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32644997
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Можно, конечно использовать реляционную базу только для хранения данных (этот подход, насколько я понял использует Владимир Иванов).
В этом случае арихтиектура хранилища будет называться по теории hub-and-spoke или централизованное хранилище, основанное на зависимымых витринах данных. Несомненно, при этом Вы получите преимущества, которые даёт хранилище данных - консолидация из разных источников, поддержка историчности, возможность очистить данные во время их загрузки в хранилище, отсутствие дублирования и избыточности данных.
Понятно, что кубы, построенные на данных хранилища будут давать более корректные результаты (как с точки зрания качества данных, так и с точки зрения корректной обработки истории изменений).
В этом плане такую архитектуру можно рассматривать как первый шаг к нормальной аналитике.
Дальше можно будет добавить к аналитическим инструментам статистические пакеты, тулзы типа data mining. Дальше идёт closed-loop BI, active data warehousing. Но это далеко не сразу и далеко не у всех.


За всё это надо платить. Во-первых, Вам надо понимать, как правильно орагинизовать данные в хранилище с точки хрения состава таблиц, как организовать поддержку истории изменений, как генерировать суррогатные ключи. Надо также понимать кое-что в приёмах очистки данных (это отдельная очень сложная область), есть ещё управление метаданными.
Помимо этого построение хранилища данных - это не затея для одного человека, поскольку требует наличия знаний и опыта в нескольких областях. Соответственно, работать должна команда. Если есть команда, то нужно уметь ей управлять - возникает project management. Дальше, поскольку последовательность задач, которые нужно выполнить, чтобы построить и поддерживать хранилище, не является тривиальной, должна быть хорошая методология построения хранилища данных (набор документов, регламентирующих то, кто когда у куда должен идти, что и как делать, что должно быть на выходе и т.д.). Методологии на дороге не валяются. Чтение, например, Кимбала (The Data Warehouse Toolkit) может приблизить к пониманию того, что методология нужна. Однако сама книга не является методологией. Такие методологии являются ноу-хау компаний, которые специализируются на построении хранилищ данных. Есть ещё Red Book от компании IBM, которая тоже делает намёк на методологию построения ХД, советую почитать, если есть серьёзный интерес.
Если таковая методология отсутвтует у команды, которая строит хранилище данных, то вероятность построить неправильно довольно высока.
Естественно, надо правильно выбрать инструменты для решения всех задач построения хранилища - СУБД (самая критичная часть), средства ETL, CASE-средства, средства OLAP/Reporting, средства управления метаданными и т.д.
В общем, получается не за угол пописать сходить :)

Вот вам и подводные камни. Сорри, что так сумбурно.

По поводу построения хранилищ на платформе MOLAP, мне кажется, можно забыть. Проблема в масштабируемости, поддержке историчности, открытости. Многомерные базы масштабируются гораздо хуже реляционных (может быть, пока, но это факт), язык запросов SQL стандартизован, многомерные базы сами себе на уме. Все уже давно строят хранилища на реляционных БД.

Надеюсь, это поможет.

С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32645091
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To backfire & Константин:

А в чем собственно проблемы?
Стоимость хранения гигабайта падает быстрее чем наполняется хранилище данных :-)


Я как-то обсуждал этот вопрос с представителем компании, в которой объемы данных очень велики (думаю больше чем у компании Walmart и не меньше чем у France Telecom). Все данные лежат в лог-файлах, и никто в единую БД это не сливает - делают базы на платформе Oracle для решения локальных задач. Если закачать все в одно место - то даже процедура бэкапирования и поднятия многотерабайтной базы - это большая проблема. Не будет ли проблем с масштабированием? Не будут ли расти по экспоненте расходы на апгрейдирование сервера? например, нет ли такого, что сервак на котором можно хранить терабайт стоит Х долларов, а в терабайта - Х*5 долларов, а 3 терабайта - Х*25? Каждый новый индекс будет создаваться медленно, запросы делать к такой БД - тоже непросто.
Или может я не прав, и управляться с гигантской базой несложно, и SQL-запросы к ней будут выполняться быстро? Есть ли какие-нибудь расценки на хранение данных в привязке к объему данных, и чтобы при этом у сервера хватало мощности обрабатывать аналитические запросы?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32645173
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Юрий,

естественно, с большими хранилищами данных может справиться не каждая платформа. Я могу сказать за СУБД Teradata. На данный момент самое большое хранилище данных на Терадате работает на системе из порядка 300 узлов - это компания SBC (WalMart имеет второе по размеру хранилище после SBC). На данный момент можно собрать сервер из 512 узлов (узлы - это двух- или четырёхпроцессорные серверы). Масштабироваться ещё есть куда.

Вот краткая характеристика системы SBC:
Хранилище данных поддерживает более 140 приложений, обслуживающее более 10 000 пользователей в более, чем 16 компаниях группы SBC (Southwestern Bell Telephone Company, Pacific Bell, SBC Services, Inc., SBC Management Services, Inc. и др.)
Ежедневно выполняется 100 000 SQL-запросов.

Вот состояние в WalMart на весну 2002 года:
Общее дисковое пространство - свыше 270 ТБ
Более 45 000 пользователей
Более 1 500 одновременно работающих пользователей
Есть таблица, содержащая более, чем 70 миллиардов строк
Всего в хранилище более 5 000 таблиц
Более 100 000 запросов в день
В день грузится более 1,5 миллиарда записей в режиме непрерывной загрузки
Хранилище обслуживает более 40 приложений
Среднее время отклика на запрос менее 3 минут
Обслуживают это хозяйство 3 администратора


Сколько всё это стоит не знаю. Но, думаю, много - система огромная.
Но люди её содержат и развивают (начали давно - раньше 1990 года) - значит
приносит немаленькие деньги.


Надеюсь, сомнения в возможностях масштабирования сняты.


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32645214
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ИМХО самый большой подводный камень - время.

1. Если в ХД заливаются гигабайты данных (в процессе его инициализации), то очень высока стоимость исправления ошибок загрузки, выявленных после инициализации ХД.
После исправления ошибки ETL приходится повторять инициализирующую загрузку, что может занять больше одного дня. Если подобных ошибок несколько, то соответственно вырастает и время их фиксации.
Это - проблема при внедрении, например на этапе ОЭ
(OFF Естественно - при разработке это - не менее актуальная проблема, но обладающая преимуществом: Заказчик не "бьет по башке" из-за недоступности ХД.)

2.Кроме того, в какой-то момент некоторые вспомогательные операции по обслуживанию БД становятся очень продолжительными (backup, reorg etc).

3. Так же становятся очень востребованными агрегирующие таблицы.

В остальном - полность солидарен с Константином. Особенно в части управления проектом :0)

ЗЫ SQL запросы работают быстро при условии, что модель БД спроектирована грамотно.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32646183
DmitryS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ну, промежуточные таблицы и служебные, может, и стоит хранить отдельно. Одним из неописанных плюсов единого хранилища является большая "лёгкость" поддержания целостности данных, поддержки и сопровождения ETL
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32646670
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
легкость ... поддержки и сопровождения ETL

Насчет легкости в этом вопросе я бы не зарекался.
Приходится тюнить SQL код, который, казалось-бы, не должен представлять никаких проблем.
Однако, при работе с большими массивами данных может существенно затормозить загрузку, или даже просто застопорить.
Можно возразить, что: "SQL код, написанный грамотно и правильно, протестированный не должен представлять никаких проблем".
Отвечу: "Может"
ХД ведь растет. Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код.
Причем при написании и тестировании этот код работал, и не плохо, а вот ХД увеличилось процентов на 5-10% - все, тормоза.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32646731
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
JimmyХД ведь растет. Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код.
Причем при написании и тестировании этот код работал, и не плохо, а вот ХД увеличилось процентов на 5-10% - все, тормоза.

Значит хреново написали, если при приросте всего 20% тормоза начинаются.

Да и для тестирования надо генерить объемы заведомо большие, чем встретятся на практике.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32646915
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код

Значит хреново написали, если при приросте всего 20% тормоза начинаются

Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647162
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jimmy Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код

Значит хреново написали, если при приросте всего 20% тормоза начинаются

Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код

Какая разница, то ли их 10, то ли их 510.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647406
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Какая разница, то ли их 10, то ли их 510.

Очень большая, смею заверить.

Код загрузки для 10-ти таблиц может написать один человек в достаточно короткий срок. При этом весьма качественно.

Когда их, таблиц, 500, то процессы пишут несколько человек, что дает прирост производительности (нелинейный!) и усложняет управление процессом реализации (почти линейно!).
Т.е. налицо очень большие риски рассогласования кода и, соответственно, ошибок, как логических, так и синтаксических.

ЗЫ А вообще странно слышать от человека, занятого в IT индустрии, такие слова, т.к. принцип "Чем больше кода, тем больше ошибок" - это аксиома для разработчика ПО, не требующая доказательств.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647453
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
1. Если в ХД заливаются гигабайты данных (в процессе его инициализации), то очень высока стоимость исправления ошибок загрузки, выявленных после инициализации ХД.
После исправления ошибки ETL приходится повторять инициализирующую загрузку, что может занять больше одного дня. Если подобных ошибок несколько, то соответственно вырастает и время их фиксации.


Интересно, если заливка гигабайтов может занять больше одного дня, сколько же времени займет загрузка терабайтов...
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647471
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jurii
Еще не пробовал ;0)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647495
DmitryS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Юр, так железяки тоже другие для терабайтов:-) А вообще, смотреть надо по обстоятельставм. Не всегда надо делать инициализационную загрузку. Возможно, где-то надо восстанавливать бэкапы - не фулл, конечно. Но вообще, если у Вас такие объёмы, то разработка ETL должна быть максимально надёжной. Т.е., скажем, DTS с его порой проявляющимися недетерминированными глюками - не лучший вариант. Бюджеты проектов другие уже. Тут скорее, целесообразнее говорить об Ascential, Informatica, например. Железо должно быть в полном порядке. Не то, чтобы супермощное, но хотя бы не служащее причиной ошибок. Короче, тонкостей много:-) Кстати, по нашим оценкам объём трудозатрат при разработке ETL c использованием DataStage примерно в 2 с небольшим раза меньше, чем при реализации той же функциональности на DTS и "коленочной рукописью". Вот и считайте, каков должен быть проект, чтобы это окупилось. Учтите стоимость специалистов.
Остапа понесло...:-)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647573
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
С моей точки зрения цетральная проблема в больших DWH это правильное ПРОЕКТИРОВАНИЕ. Большие DWH жестоко мстят даже за небольшие ошибки в проектировании т.к. при изменении структуры DWH вам нужно часто перекачать данные в новую структуру, а это может занять несколько дней только на одну итерацию. Другая типовая проблема проблема это потеря исходных данных, т.к. хралище сделали для хранения только сурогатов для расчетов а сами данные потеряли. Глюки в DWH нужно убирать сразу, т.к. поставить заплатку на рабочий DWH очень тяжело (итерация трансформации данных долгая). Еще одна проблема это то что для больших DWH характеры тяжелые SQL-запросы при заполнии кубов или при промежуточных расчетах. Тут нужно владеть всеми тонкостями SQL-сервера который выбран для DWH.
Будь это MS SQL, Oracle или Tera Data специалист отвечающий за проектирование DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах. Наличие такого специалиста и определяет платформу, т.к. такие профи единичны на рынке.
Поэтому если бы у меня работал Константин я бы выбирал Терадату, если Биркофф - Oracle, если бы делал сам - MS SQL.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647635
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир ИвановС моей точки зрения цетральная проблема в больших DWH это правильное ПРОЕКТИРОВАНИЕ. Большие DWH жестоко мстят даже за небольшие ошибки в проектировании т.к. при изменении структуры DWH вам нужно часто перекачать данные в новую структуру, а это может занять несколько дней только на одну итерацию. Другая типовая проблема проблема это потеря исходных данных, т.к. хралище сделали для хранения только сурогатов для расчетов а сами данные потеряли. Глюки в DWH нужно убирать сразу, т.к. поставить заплатку на рабочий DWH очень тяжело (итерация трансформации данных долгая). Еще одна проблема это то что для больших DWH характеры тяжелые SQL-запросы при заполнии кубов или при промежуточных расчетах. Тут нужно владеть всеми тонкостями SQL-сервера который выбран для DWH.
Будь это MS SQL, Oracle или Tera Data специалист отвечающий за проектирование DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах. Наличие такого специалиста и определяет платформу, т.к. такие профи единичны на рынке.
Поэтому если бы у меня работал Константин я бы выбирал Терадату, если Биркофф - Oracle, если бы делал сам - MS SQL.

Один из немногих случаев, когда я с Вами полностью согласен :-)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648040
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To DmitryS:

Юр, так железяки тоже другие для терабайтов:-)

А какие у этих железяк скорости копирования данных? Гигабайты в секунду, или все же помедленнее?

Если почитать постинги этой дискуссии, то становится понятно, почему считается, что хранилища внедряются годами и стоят очень дорого.
Интересно, есть ли статистика, в скольки процентах случаев проекты по созданию хранилищ были провальными?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648217
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii
Интересно, есть ли статистика, в скольки процентах случаев проекты по созданию хранилищ были провальными?

ja slyshal o 60%. Proval izza technicheskih trudnostei libo izza plohoi modeli DWH/postanovki zadaci. God nazad. Kakajata analiticeskaja kontora. Ssylki ne pomniu.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648887
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
60% - похоже на правду
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648940
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2/3 проваленных IT-проектов это для общей массы (статистика Standish Group).
По моим наблюдениям BI-проекты существенно успешнее IT-проектов других типов. Даже для сложного решения можно выйти на весьма приличный протип за 1 месяц. Весьма приличный - это значит что многие пользователи могут его воспринимать как конечный продукт и даже эксплуатировать.
Сложное решение для нефтянки может внедряться 8 месяцев и в основном проблемы будут организационные.
Мои выводы такие. Если вам нужно получить систему для принятия решений, BI-решение как правило дешевле и что важнее менее рискованно чем другие варианты в том числе на без спец. модулей в ERP-системах. Как минимум для SAP это точно так.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648988
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
po moim nabliudenijam - 50/50. Cem krupnee zakazcik, cem bolse direktorov, otdelov, istocnikov dannyh - tem risk provala vyse.

Risk snizaetsia procentov na 80-90 pri ispolzovanii gotovyh modelei dannyh tipa Terradata logical model, Sybase IWS, Oracle/IBM EDW model.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32649744
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Risk snizaetsia procentov na 80-90 pri ispolzovanii gotovyh modelei dannyh tipa Terradata logical model, Sybase IWS, Oracle/IBM EDW model.

А есть ли у кого-нибудь опыт создания хранилищ на основе готовых решений, готовых моделей данных (см. выше)? Так ли легко это внедрять? Есть ли риск, что при отсутствии нормальных источников данных (учетной системы) не удастся наполнить такие хранилища данными? И приходится ли реально перепроектировать эти готовые модели, если например бизнес-процессы под них не хочется менять?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32649757
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А есть ли у кого-нибудь опыт создания хранилищ на основе готовых решений, готовых моделей данных (см. выше)?


Шаблоны готовых решений издложены классиками DWH

Так ли легко это внедрять? Есть ли риск, что при отсутствии нормальных источников данных (учетной системы) не удастся наполнить такие хранилища данными?

"Нормальные" источники как правило встречаются в теории а на практике все гораздо мрачнее. На то и ETL, чтобы из возможного получить максимум желаемого.

И приходится ли реально перепроектировать эти готовые модели, если например бизнес-процессы под них не хочется менять?

На практике я еще ни разу не встречался, чтобы бизнес процессы в ERP/OLTP менялись. Как правило подстраивается ETL, DWH в меньшей мере.

А вообще, это тянет на некороткий разговор под пару ящиков пива. :-).
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32649985
Bear_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
backfireШаблоны готовых решений издложены классиками DWH
не встречались ли Вам структуры для содания систем бюджетирования с возможностью версионности бюджетов, зависимостей между ними и анализа "что-если"?
если да, то где? можно ли получить доступ к этой информации?

предвосхищая Yurii - Enterprise Planning уже изучается, интересуют именно модели схем данных под задачу качественного бюджетирования
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32650038
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Bear_ backfireШаблоны готовых решений издложены классиками DWH
не встречались ли Вам структуры для содания систем бюджетирования с возможностью версионности бюджетов, зависимостей между ними и анализа "что-если"?
если да, то где? можно ли получить доступ к этой информации?

предвосхищая Yurii - Enterprise Planning уже изучается, интересуют именно модели схем данных под задачу качественного бюджетирования

Dlia etogo ocen chasto nikakoj DWH ne nuzen. Mozete posmotret http://www.corporate-planning.com/en/index.php . da i cena v n raz mense
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32650040
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
v dogonku :) Ne dumaju, cto sredstva vizualizacii (tipo Vognos ili BO) butut idealny dlia biudzetirovanija
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32650043
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_Dogv dogonku :) Ne dumaju, cto sredstva vizualizacii (tipo Vognos ili BO) butut idealny dlia biudzetirovanija

Vognos citat' kak Cognos
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32650046
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
So vsem soglasen. Naskolko videl, vse korporacii u kotoryh est' model dannyh (logiceskaja libo fiziceskaja) starajutsia ne rasprostraniatsia na temu - a cto i kak tam vnutri. (Da i kakaja raznica dlia zakazcika - glavnoe ctoby eDWH otvetil na biznes voprosy)

авторНа практике я еще ни разу не встречался, чтобы бизнес процессы в ERP/OLTP менялись. Как правило подстраивается ETL, DWH в меньшей мере.

Biznes processy casce vsego net, no pri nedostatke dannyh (naprimer informacija ne sohranialas), izmenenija v ERP/CRM pocti vsegda.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32650087
Bear_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
_Dogv dogonku :) Ne dumaju, cto sredstva vizualizacii (tipo Vognos ili BO) butut idealny dlia biudzetirovanija
речь идет о специализированном продукте для построения сложносвязанных бюджетов с хорошими возможностями консолидации и получения ответов на вопросы "what-if" - Cognos Enterprise Planning

[уточнение по вопросу]
основная задача - бюджетирование производственной себестоимости и всего что с этим связано, вплоть до условно-постоянных затрат (зп, налоги и т.п.)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32650092
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2Bear_
Мы как раз и занимаемся бюджетированием производственной себестоимости для больших производственных групп таких как Лукойл.
Сомневаюсь, что Cognos Planning тут сильно поможет. Это добротное, но простенькое бюджетирование.
Производственное бюджетирование самый сложный вариант.
Для решения этой задачи в общем виде нужно иметь матричную систему калькуляции плановой и фактической себестоимости, а желательно еще и прогностический режим. Такой системы нет пока даже в SAP R3. Это всегда внешний компонент.
Без матричного метода вам не обсчитать правильно циклические затраты.
Для маленького завода это не проблема. Просто пренебрегаем 2-3% себестоимости на возвратном цикле и все. А для серьезного предприятия это огромные деньги и упрощение не допустимо.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32650096
Bear_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир ИвановМы как раз и занимаемся бюджетированием производственной себестоимости для больших производственных групп таких как Лукойл.
...
Для решения этой задачи в общем виде нужно иметь матричную систему калькуляции плановой и фактической себестоимости, а желательно еще и прогностический режим.
...
Без матричного метода вам не обсчитать правильно циклические затраты.
Для маленького завода это не проблема. Просто пренебрегаем 2-3% себестоимости на возвратном цикле и все. А для серьезного предприятия это огромные деньги и упрощение не допустимо.
Все так. Каюсь. :)
И цикл возвратный и больше 4х переделов, на любом из которых результат - и готовая продукция и сырье. И "одинаковых" цехов по 2-4 на каждом комбинате..
Можете в общих чертах рассказать в какую сторону движетесь?
Как мне видится на данный момент - очень интересно былобы попробовать реализовать подобную систему через ROLAP и Writeback - "что-если" в одном влаконе.
Но какую структуру таблиц и связей выбрать для данной задачи - вот в чем вопрос основной. У "классиков" об этом ни слова. Не хочется изобретать велосипед - нужно как минимум 200 лошадиных сил .
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32650443
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
OK. Посмотрел Enterprise Planning. Как и Corporate Planner (линк выше), похоже использует тот же подход. В моем понимании, не совсем то, что Вам нужно. Но, т.к. о шаблонах для производства/бюджетов не слышал, то сложно сказать, на сколько ЕР или СР будут полезны.

Нетривиальная задача. По мне, смахивает на задачу BPM/BPM(Business Performance Management/Business Process Management) - таких методик есть много, многие включают в себя SPSS для data mining + система калькуляции (как писал ВИ).
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32651768
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир,

Мы как раз и занимаемся бюджетированием производственной себестоимости для больших производственных групп таких как Лукойл.
Сомневаюсь, что Cognos Planning тут сильно поможет. Это добротное, но простенькое бюджетирование.
Производственное бюджетирование самый сложный вариант.


Мои коллеги внедряют Cognos Planning в разных компаниях, в том числе и в нескольких структурах Лукойла... И я бы не сказал, что Cognos Planning - это простенькое бюджетирование. Там можно наваять сложные модели, да и методов прогнозирования там около десятка.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32652719
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Юра, это локальные внедрения Cognos. Как есть и локальные внедрения BO в рамках отдельных малых подразделений под их отвественность.
Серьезных вредрений быть не должно, т.к. вас нет в Положении о Калькулировании и Бюджетировании.
Причем Лукойл сейчас избавляется от таких локальных внедрений, например был снесен BO в Перми.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32652893
Bear_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир ИвановЮра, это ... в Перми.
Боюсь показаться настырным - может ответите на вопрос?
Можете в общих чертах рассказать в какую сторону движетесь? Какой принцип выбрали для построения матричного метода?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32654350
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир,

Юра, это локальные внедрения Cognos. Серьезных вредрений быть не должно, т.к. вас нет в Положении о Калькулировании и Бюджетировании.

Я не думаю что наши внедрения можно назвать локальными. Просто мы работаем не со структурами по добыче и переработке нефти, а со смежными бизнесами, у Лукойла их много...

Причем Лукойл сейчас избавляется от таких локальных внедрений, например был снесен BO в Перми.

Это интересная информация... И что, теперь там внедряют MS AS?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32657976
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2Bear_
Мы движемся в сторону методик за которые дали в свое время Нобелевские премии по экономике. Матричный метод калькуляции производственных затрат описан в любом хорошем учебнике по экономике.
Для нефтегазовых компаний данный метод считается стандартным и лучшим.
Для примера крупнейшая нефтяная компания Exxon внедрила его первая как и первая внедрила интеграцию таких калькуляций с SAP R3.
В принципе этот метод особенно хорош для крупных промышленных групп и крупных производств, где много возвратных технологических циклов и разнопрофильных производств. Кроме нефтянки это энергетика, машиностроение, производство стройматериалов с вторичной переработкой и т.д.
При сравнительной простоте концепции матричного метода (решение системы линейных уравнений, где компоненты себестоимости есть искомые переменные), реализация его сложна. Точнее эксплутация очень проста, а реализация проблематична. Для реального предприятия вам придется решать матрицы примерно на 2 млрд. элементов, причем решение должно идти методом без погрешности. Для этого нужен серьезный мат. движок оптимизированый для матриц данного вида. Даже улчшие общие алгоритмы не могут решать такие матрицы за 40 секунд. Потом для отображения результатов калькуляций в человеческом виде OLAP-отчетов вам потребуется специфический DWH, который умеет работать с данными в матрицах, а не просто в таблицах.
Кроме этого нужны очень опытные консультанты для построения эк. модели из эк. объектов. Это трансляция тех. объектов в эк.объекты.
Еще полюс матричных калькуляций это автоматическая генерация проводок закрытия всех производственных счетов для всех связанных бухгалтерий.
Кроме этого часто используют бинарные матрицы, где идут многовариантные расчеты. Например, раздельный расчет для экономистов и бухгалтеров, прогностический расчет и т.д.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32658191
guestt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2Владимир Иванов
Вопрос - при решении таких больших систем линейных уравнений вы пользуетесь своим инструментарием?
Frontline Systems-ские решатели не юзаете?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32658194
guestt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2Владимир Иванов
Вопрос - при решении таких больших систем линейных уравнений вы пользуетесь своим инструментарием?
Frontline Systems-ские решатели не юзаете?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32658342
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Нет, мы используем свой алгоритм решения построенный на базе метода Холецкого. Наша реализация быстрее Холецкого в 1000 раз и не генерирует погрешность (алгоритм класса нулевой накопительной погрешности). А сам метод Холецкого быстрее в 1000 раз стандартного решения методом Гаусса. Вот вам и разница в 1 млн. раз.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32658456
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир ИвановНет, мы используем свой алгоритм решения построенный на базе метода Холецкого. Наша реализация быстрее Холецкого в 1000 раз и не генерирует погрешность (алгоритм класса нулевой накопительной погрешности). А сам метод Холецкого быстрее в 1000 раз стандартного решения методом Гаусса. Вот вам и разница в 1 млн. раз.

Извиняюсь за офтопик, но выскажусь.

0. Классическая реализация Гаусса это позапрошлвй век.

1. Метод Холецкого является частным метом LU разложения, действителен на положительноопределенных симметричных матрицах. Считает корни, а это связано со всеми негативными моментами Выч. Мат.

2. Если ваша матрица сильно разрежена, в чем больше чем уверен, то Холецкого вообще вспоминать не слодовало бы, а надо брать прогоночные методы из численных методо матфизики. Благо в последнее время, на деньги Daimler Chrysler, Boeing, Airbus Industry эти методы оптимизировали дальше некуда, так что изобретать велосипед не надо.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32658459
guestt
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2Владимир Иванов
То есть решалку писали сами?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32658597
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2backfire. Мне кажется ваше замечание из серии "Мне тоже читали МатАн и тоже что-то помню". Есть теория, а есть практика.
Метод Холецкого довольно часто используют на практике для решения разряженных матриц сколько бы его не критиковали идеалисты. Мощности даже современных ПК хватает для решения таким методом матриц с диагональю 5000 элементов за 10 минут и 1000 элементов за 1 минуту. Такой производительности достаточно для многих задач, поэтому на практике Холецкий очень часто используется в экономических приложениях.
Наш метод и есть вариант прогоночного нулевой погрешности, однако велосипед изобретать стоило, т.к. он заточен именно для реальных матриц для задач по калькуляции себестоимости. Частные оптимизации всегда очень и очень сильны. Такие матрицы действительно разряжены, но их разряженность для задачи себестоимости имеет типовые закономерности которые мы используем для оптимизации.
Поэтому для решения реальной матрицы с диагональю в 35000 элементов (более 1 млрд. ячеек) нужно всего 40 секунд, поэтому не нужно пользователям использовать обычную двухэтапную верификацию данных (это замечание для тех кто практически использует такие решения). Это лучший из известных мне результатов. Наш ближайший конкурент тоже самописный калькулятор которые делают коллеги из Аризоны примерно в 2,5 раза хуже и только движок стоит $40 килобаков.
Однако наш метод может показать результат в 10 раз хуже для матриц других типов специфичных для других задач.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32658688
Bear_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2Владимир Иванов
Спасибо за ответ.
Владимир ИвановПри сравнительной простоте концепции ... реализация его сложна. ... Для реального предприятия .. матрицы примерно на 2 млрд. элементов, .. решение .. без погрешности. ... нужен серьезный мат. движок оптимизированый для матриц данного вида.
Какой движок используете Вы? SQL Server и его SP и UDF?
2 млрд - это на каком количестве сырьевых компонентов? Сколько переделов?

Владимир Иванов ... специфический DWH, который умеет работать с данными в матрицах, а не просто в таблицах.
Что имеется в виду? Данные находятся не в таблицах в результате формирования матрицы?

Владимир Иванов
... нужны очень опытные консультанты для построения эк. модели из эк. объектов. ...

Это ясно. Интересуют общие описания технологии данных консультантов - чтобы оценить эффективность возможного сотрудничества.

Владимир Иванов
Еще полюс матричных калькуляций это автоматическая генерация проводок закрытия всех производственных счетов для всех связанных бухгалтерий.
Кроме этого часто используют бинарные матрицы, где идут многовариантные расчеты. Например, раздельный расчет для экономистов и бухгалтеров, прогностический расчет и т.д.
Вы имеете в виду правильное разнесение затрат в себестоимость?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32659508
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Переделов смотря каких. Если формальных (как крупные группы технологий) то наверное десяток. Если как переход между объектами в тех. цепочке, то около 40. Это для нефтегазовой отрасли.
Завязки на число переделов нет.
Методику обычно реализует в наших проектах наш партнер ПАКК.
Методика это их copyright, поэтому в открытом форуме не могу говорить о деталях, на встрече можно хоть толмуты полистать.
Для сотрудничества по таким вопросам public форум не уместен. Пишите в почту ivanov-soft@inbox.ru
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32659624
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир Иванов
Метод Холецкого довольно часто используют на практике для решения разряженных матриц сколько бы его не критиковали идеалисты. Мощности даже современных ПК хватает для решения таким методом матриц с диагональю 5000 элементов за 10 минут и 1000 элементов за 1 минуту.

Только разреженные матрицы с диагональю в 100000 элементов, я решал лет 5-7 назад с затратами времени порядка 1 секунды на PIII-450. Писал сам на Fortran, исходный код могу показать, на Backup СD, записанном еще в 99 году.

И численные методы мне читали, не в курсе матана как будущему учителю физики, а по-взрослому, как будущему инженеру-исследователю.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32661535
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Только разреженные матрицы с диагональю в 100000 элементов, я решал лет 5-7 назад с затратами времени порядка 1 секунды на PIII-450. Писал сам на Fortran, исходный код могу показать, на Backup СD, записанном еще в 99 году.


Буратино говорил про такое просто - "Врете дяденька!". С такой скоростью может работать только метод исключений. А это очень и очень частный случай.
В прочем буду рад ошибиться и посмотреть ваш код. Как это можно сделать?
Обидно если какие-то 125 неожиданно всплывших проблем помешают этому.


И численные методы мне читали, не в курсе матана как будущему учителю физики, а по-взрослому, как будущему инженеру-исследователю.


Володя, тебе так хочется меня обидеть? Думаю это не так просто сделать.
Володя, ты плохо знашь академическую систему бывшего СССР.
Я действительно по образованию профессиональный педагог и закончил самый сильный педун в СНГ (второй к слову этом плане даже не МГУ, а педун в Москве). Но ты ошибаешься если думаешь что курс обучения в Герцовнике состоял из изучения школьного учебника физики (собственно мы его даже не открывали, т.к. это частный случай методики и не более). Обучение состояло на 80% из профессионального изучения дидактики (общие основы преподавания чего-либо вообще) и как тебе не удивительно будет узнать из специального физ. обучения на глубоком уровне. Все физ. факульты обязательно в СССР имели глобальную специализацию. Физика в Герцовнике это физика твердого тела, т.е. физика кристаллов и полупроводников. Соотвественно по этой тематике там были и есть лучшие спецы. Тот же Гороховатский до сих пор при министре за эту тему отвечает.
То что тебе не читали в курсе численные методы это понятно. Нам и в универе в СПБ это читали в даже несколько разных курсов. Ответ прост. В универе СПБ велась почти вся вычислительная физика СССР (узнай кто такой Мордовин), а в Герцовнике полупроводники. И то и другое в СССР было предано анафеме как происки империалистов и спецы-десиденты уехали в Питер, поэтому даже в МГУ курсы вычисл. физики появились только в 1992г.
Физика полупроводников это очень серьезная вычислительная физика, т.к. там почти все решения делаются на основе квантовой теории. Поэтому мне даже после нескольких специальных курсов по вычислительной физике не хватало знаний и главное практики. Я уже студентом был не будущим, а действующим физиком-исследователем и мне удалось найти интересные моменты в гибридных состояниях, которые сейчас даже в учебники включают. Хотя за это я и получил гранты Сороса и РАН, я до сих пор считаю это баловством.
По окончанию ВУЗа, я мог пойти по двум направлениям вычислительная физика в твердом теле или дидактика. Я выбрал второе. Мне больше нравиться организовывать и обучать людей. Потом физиков и информатов навалом, а вот специалистов обученных профессионально воздествовать на мозги и мотивацию людей мало. Забавно только последние 2-3 года консалтеры заговорили об проф. организации мотивации персонала. Мне же Ланина читала куда более сильный курс по мотивации много лет назад.

Вот такое письмецо за жизнь после поездки в сарахарные заводики в Казахстан. Все сдали, пора пить пиво!
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32782920
OLAPMASTER
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Почитал Константин Лисянский, Владимир Иванов ......
Ну что могу сказать сам не так давно занимаюсь DWH и DM, но коекакие победы есть. ETL это вообще штука такая, я например считаю что это самое главное так как много раз сталкивался с тем что данные почемуто не попадают в DWH (действительно почему то??? потому что ETL хреновая).
У Владимира Иванова мне понравилось (DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах) прям как закон об иномарках не старше 7 лет. Владимир можно и 50 лет работать и делать ошибки из школьной программы, технологии растут как грибы, вы еще вчера что то такое использовали сегодня, это уже история. Самое главное это технологии и предметная область. Работая в торговли и ресторанном бизнесе и там совершенно разные методы хранения и технология хранения даных, хотя и там и там касса склад и бекофис. Вибирая СУБД только исходя из ее производительности на расчетном (умноженном на два) объеме данных. И вообще в Оракл столько наворотов по DWH просто пипец, но вот только я их не использую, считаю что все гениальное простое как колесо, ничего проше нет, но зато какой блин двигатель науки.
Можно читать много книг о том как там в Америке народ блин строит DHW и все такое, вот только у нас не Америка и технология постройки своя и не их клеше.

И к слову первый раз на форуме и много интересного, буду чаше сдесь бывать.
...
Рейтинг: 0 / 0
49 сообщений из 49, показаны все 2 страниц
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Какие подводные камни бывают у больших DWH?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]