Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Всем привет, Часто приходится в последнее время слышать, что где-то хранилище имеет размер 100 гигабайт, где-то - терабайты. Хранилище распухает зачастую по причине создания индексов, промежуточных таблиц. Есть ли у кого-нибудь мнение, стоит ли хранить все данные для анализа и отчетности в одной базе, или может лучше иметь много кубов среднего размера (использовать технологию MOLAP)? При этом я не исключаю, что будет большая реляционная БД, в которую данные будут собираться из разных источников, поддерживаться суррогатные ключи и т.п., но это реляционное хранилище будет использоваться только для хранения данных, будет служить источником для наполнения кубов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 14:49 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
А в чем собственно проблемы? Стоимость хранения гигабайта падает быстрее чем наполняется хранилище данных :-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 15:42 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Можно, конечно использовать реляционную базу только для хранения данных (этот подход, насколько я понял использует Владимир Иванов). В этом случае арихтиектура хранилища будет называться по теории hub-and-spoke или централизованное хранилище, основанное на зависимымых витринах данных. Несомненно, при этом Вы получите преимущества, которые даёт хранилище данных - консолидация из разных источников, поддержка историчности, возможность очистить данные во время их загрузки в хранилище, отсутствие дублирования и избыточности данных. Понятно, что кубы, построенные на данных хранилища будут давать более корректные результаты (как с точки зрания качества данных, так и с точки зрения корректной обработки истории изменений). В этом плане такую архитектуру можно рассматривать как первый шаг к нормальной аналитике. Дальше можно будет добавить к аналитическим инструментам статистические пакеты, тулзы типа data mining. Дальше идёт closed-loop BI, active data warehousing. Но это далеко не сразу и далеко не у всех. За всё это надо платить. Во-первых, Вам надо понимать, как правильно орагинизовать данные в хранилище с точки хрения состава таблиц, как организовать поддержку истории изменений, как генерировать суррогатные ключи. Надо также понимать кое-что в приёмах очистки данных (это отдельная очень сложная область), есть ещё управление метаданными. Помимо этого построение хранилища данных - это не затея для одного человека, поскольку требует наличия знаний и опыта в нескольких областях. Соответственно, работать должна команда. Если есть команда, то нужно уметь ей управлять - возникает project management. Дальше, поскольку последовательность задач, которые нужно выполнить, чтобы построить и поддерживать хранилище, не является тривиальной, должна быть хорошая методология построения хранилища данных (набор документов, регламентирующих то, кто когда у куда должен идти, что и как делать, что должно быть на выходе и т.д.). Методологии на дороге не валяются. Чтение, например, Кимбала (The Data Warehouse Toolkit) может приблизить к пониманию того, что методология нужна. Однако сама книга не является методологией. Такие методологии являются ноу-хау компаний, которые специализируются на построении хранилищ данных. Есть ещё Red Book от компании IBM, которая тоже делает намёк на методологию построения ХД, советую почитать, если есть серьёзный интерес. Если таковая методология отсутвтует у команды, которая строит хранилище данных, то вероятность построить неправильно довольно высока. Естественно, надо правильно выбрать инструменты для решения всех задач построения хранилища - СУБД (самая критичная часть), средства ETL, CASE-средства, средства OLAP/Reporting, средства управления метаданными и т.д. В общем, получается не за угол пописать сходить :) Вот вам и подводные камни. Сорри, что так сумбурно. По поводу построения хранилищ на платформе MOLAP, мне кажется, можно забыть. Проблема в масштабируемости, поддержке историчности, открытости. Многомерные базы масштабируются гораздо хуже реляционных (может быть, пока, но это факт), язык запросов SQL стандартизован, многомерные базы сами себе на уме. Все уже давно строят хранилища на реляционных БД. Надеюсь, это поможет. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 16:09 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
To backfire & Константин: А в чем собственно проблемы? Стоимость хранения гигабайта падает быстрее чем наполняется хранилище данных :-) Я как-то обсуждал этот вопрос с представителем компании, в которой объемы данных очень велики (думаю больше чем у компании Walmart и не меньше чем у France Telecom). Все данные лежат в лог-файлах, и никто в единую БД это не сливает - делают базы на платформе Oracle для решения локальных задач. Если закачать все в одно место - то даже процедура бэкапирования и поднятия многотерабайтной базы - это большая проблема. Не будет ли проблем с масштабированием? Не будут ли расти по экспоненте расходы на апгрейдирование сервера? например, нет ли такого, что сервак на котором можно хранить терабайт стоит Х долларов, а в терабайта - Х*5 долларов, а 3 терабайта - Х*25? Каждый новый индекс будет создаваться медленно, запросы делать к такой БД - тоже непросто. Или может я не прав, и управляться с гигантской базой несложно, и SQL-запросы к ней будут выполняться быстро? Есть ли какие-нибудь расценки на хранение данных в привязке к объему данных, и чтобы при этом у сервера хватало мощности обрабатывать аналитические запросы? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 16:38 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Юрий, естественно, с большими хранилищами данных может справиться не каждая платформа. Я могу сказать за СУБД Teradata. На данный момент самое большое хранилище данных на Терадате работает на системе из порядка 300 узлов - это компания SBC (WalMart имеет второе по размеру хранилище после SBC). На данный момент можно собрать сервер из 512 узлов (узлы - это двух- или четырёхпроцессорные серверы). Масштабироваться ещё есть куда. Вот краткая характеристика системы SBC: Хранилище данных поддерживает более 140 приложений, обслуживающее более 10 000 пользователей в более, чем 16 компаниях группы SBC (Southwestern Bell Telephone Company, Pacific Bell, SBC Services, Inc., SBC Management Services, Inc. и др.) Ежедневно выполняется 100 000 SQL-запросов. Вот состояние в WalMart на весну 2002 года: Общее дисковое пространство - свыше 270 ТБ Более 45 000 пользователей Более 1 500 одновременно работающих пользователей Есть таблица, содержащая более, чем 70 миллиардов строк Всего в хранилище более 5 000 таблиц Более 100 000 запросов в день В день грузится более 1,5 миллиарда записей в режиме непрерывной загрузки Хранилище обслуживает более 40 приложений Среднее время отклика на запрос менее 3 минут Обслуживают это хозяйство 3 администратора Сколько всё это стоит не знаю. Но, думаю, много - система огромная. Но люди её содержат и развивают (начали давно - раньше 1990 года) - значит приносит немаленькие деньги. Надеюсь, сомнения в возможностях масштабирования сняты. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 17:02 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
ИМХО самый большой подводный камень - время. 1. Если в ХД заливаются гигабайты данных (в процессе его инициализации), то очень высока стоимость исправления ошибок загрузки, выявленных после инициализации ХД. После исправления ошибки ETL приходится повторять инициализирующую загрузку, что может занять больше одного дня. Если подобных ошибок несколько, то соответственно вырастает и время их фиксации. Это - проблема при внедрении, например на этапе ОЭ (OFF Естественно - при разработке это - не менее актуальная проблема, но обладающая преимуществом: Заказчик не "бьет по башке" из-за недоступности ХД.) 2.Кроме того, в какой-то момент некоторые вспомогательные операции по обслуживанию БД становятся очень продолжительными (backup, reorg etc). 3. Так же становятся очень востребованными агрегирующие таблицы. В остальном - полность солидарен с Константином. Особенно в части управления проектом :0) ЗЫ SQL запросы работают быстро при условии, что модель БД спроектирована грамотно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 17:16 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Ну, промежуточные таблицы и служебные, может, и стоит хранить отдельно. Одним из неописанных плюсов единого хранилища является большая "лёгкость" поддержания целостности данных, поддержки и сопровождения ETL ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 11:45 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
легкость ... поддержки и сопровождения ETL Насчет легкости в этом вопросе я бы не зарекался. Приходится тюнить SQL код, который, казалось-бы, не должен представлять никаких проблем. Однако, при работе с большими массивами данных может существенно затормозить загрузку, или даже просто застопорить. Можно возразить, что: "SQL код, написанный грамотно и правильно, протестированный не должен представлять никаких проблем". Отвечу: "Может" ХД ведь растет. Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код. Причем при написании и тестировании этот код работал, и не плохо, а вот ХД увеличилось процентов на 5-10% - все, тормоза. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 14:05 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
JimmyХД ведь растет. Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код. Причем при написании и тестировании этот код работал, и не плохо, а вот ХД увеличилось процентов на 5-10% - все, тормоза. Значит хреново написали, если при приросте всего 20% тормоза начинаются. Да и для тестирования надо генерить объемы заведомо большие, чем встретятся на практике. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 14:20 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код Значит хреново написали, если при приросте всего 20% тормоза начинаются Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 15:04 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Jimmy Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код Значит хреново написали, если при приросте всего 20% тормоза начинаются Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код Какая разница, то ли их 10, то ли их 510. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 16:13 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Какая разница, то ли их 10, то ли их 510. Очень большая, смею заверить. Код загрузки для 10-ти таблиц может написать один человек в достаточно короткий срок. При этом весьма качественно. Когда их, таблиц, 500, то процессы пишут несколько человек, что дает прирост производительности (нелинейный!) и усложняет управление процессом реализации (почти линейно!). Т.е. налицо очень большие риски рассогласования кода и, соответственно, ошибок, как логических, так и синтаксических. ЗЫ А вообще странно слышать от человека, занятого в IT индустрии, такие слова, т.к. принцип "Чем больше кода, тем больше ошибок" - это аксиома для разработчика ПО, не требующая доказательств. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 17:25 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
1. Если в ХД заливаются гигабайты данных (в процессе его инициализации), то очень высока стоимость исправления ошибок загрузки, выявленных после инициализации ХД. После исправления ошибки ETL приходится повторять инициализирующую загрузку, что может занять больше одного дня. Если подобных ошибок несколько, то соответственно вырастает и время их фиксации. Интересно, если заливка гигабайтов может занять больше одного дня, сколько же времени займет загрузка терабайтов... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 17:40 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2 Jurii Еще не пробовал ;0) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 17:46 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Юр, так железяки тоже другие для терабайтов:-) А вообще, смотреть надо по обстоятельставм. Не всегда надо делать инициализационную загрузку. Возможно, где-то надо восстанавливать бэкапы - не фулл, конечно. Но вообще, если у Вас такие объёмы, то разработка ETL должна быть максимально надёжной. Т.е., скажем, DTS с его порой проявляющимися недетерминированными глюками - не лучший вариант. Бюджеты проектов другие уже. Тут скорее, целесообразнее говорить об Ascential, Informatica, например. Железо должно быть в полном порядке. Не то, чтобы супермощное, но хотя бы не служащее причиной ошибок. Короче, тонкостей много:-) Кстати, по нашим оценкам объём трудозатрат при разработке ETL c использованием DataStage примерно в 2 с небольшим раза меньше, чем при реализации той же функциональности на DTS и "коленочной рукописью". Вот и считайте, каков должен быть проект, чтобы это окупилось. Учтите стоимость специалистов. Остапа понесло...:-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 17:55 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
С моей точки зрения цетральная проблема в больших DWH это правильное ПРОЕКТИРОВАНИЕ. Большие DWH жестоко мстят даже за небольшие ошибки в проектировании т.к. при изменении структуры DWH вам нужно часто перекачать данные в новую структуру, а это может занять несколько дней только на одну итерацию. Другая типовая проблема проблема это потеря исходных данных, т.к. хралище сделали для хранения только сурогатов для расчетов а сами данные потеряли. Глюки в DWH нужно убирать сразу, т.к. поставить заплатку на рабочий DWH очень тяжело (итерация трансформации данных долгая). Еще одна проблема это то что для больших DWH характеры тяжелые SQL-запросы при заполнии кубов или при промежуточных расчетах. Тут нужно владеть всеми тонкостями SQL-сервера который выбран для DWH. Будь это MS SQL, Oracle или Tera Data специалист отвечающий за проектирование DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах. Наличие такого специалиста и определяет платформу, т.к. такие профи единичны на рынке. Поэтому если бы у меня работал Константин я бы выбирал Терадату, если Биркофф - Oracle, если бы делал сам - MS SQL. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 18:38 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Владимир ИвановС моей точки зрения цетральная проблема в больших DWH это правильное ПРОЕКТИРОВАНИЕ. Большие DWH жестоко мстят даже за небольшие ошибки в проектировании т.к. при изменении структуры DWH вам нужно часто перекачать данные в новую структуру, а это может занять несколько дней только на одну итерацию. Другая типовая проблема проблема это потеря исходных данных, т.к. хралище сделали для хранения только сурогатов для расчетов а сами данные потеряли. Глюки в DWH нужно убирать сразу, т.к. поставить заплатку на рабочий DWH очень тяжело (итерация трансформации данных долгая). Еще одна проблема это то что для больших DWH характеры тяжелые SQL-запросы при заполнии кубов или при промежуточных расчетах. Тут нужно владеть всеми тонкостями SQL-сервера который выбран для DWH. Будь это MS SQL, Oracle или Tera Data специалист отвечающий за проектирование DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах. Наличие такого специалиста и определяет платформу, т.к. такие профи единичны на рынке. Поэтому если бы у меня работал Константин я бы выбирал Терадату, если Биркофф - Oracle, если бы делал сам - MS SQL. Один из немногих случаев, когда я с Вами полностью согласен :-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 19:37 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
To DmitryS: Юр, так железяки тоже другие для терабайтов:-) А какие у этих железяк скорости копирования данных? Гигабайты в секунду, или все же помедленнее? Если почитать постинги этой дискуссии, то становится понятно, почему считается, что хранилища внедряются годами и стоят очень дорого. Интересно, есть ли статистика, в скольки процентах случаев проекты по созданию хранилищ были провальными? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 10:06 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Jurii Интересно, есть ли статистика, в скольки процентах случаев проекты по созданию хранилищ были провальными? ja slyshal o 60%. Proval izza technicheskih trudnostei libo izza plohoi modeli DWH/postanovki zadaci. God nazad. Kakajata analiticeskaja kontora. Ssylki ne pomniu. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 11:04 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
60% - похоже на правду ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 14:55 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2/3 проваленных IT-проектов это для общей массы (статистика Standish Group). По моим наблюдениям BI-проекты существенно успешнее IT-проектов других типов. Даже для сложного решения можно выйти на весьма приличный протип за 1 месяц. Весьма приличный - это значит что многие пользователи могут его воспринимать как конечный продукт и даже эксплуатировать. Сложное решение для нефтянки может внедряться 8 месяцев и в основном проблемы будут организационные. Мои выводы такие. Если вам нужно получить систему для принятия решений, BI-решение как правило дешевле и что важнее менее рискованно чем другие варианты в том числе на без спец. модулей в ERP-системах. Как минимум для SAP это точно так. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 15:10 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
po moim nabliudenijam - 50/50. Cem krupnee zakazcik, cem bolse direktorov, otdelov, istocnikov dannyh - tem risk provala vyse. Risk snizaetsia procentov na 80-90 pri ispolzovanii gotovyh modelei dannyh tipa Terradata logical model, Sybase IWS, Oracle/IBM EDW model. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 15:27 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Risk snizaetsia procentov na 80-90 pri ispolzovanii gotovyh modelei dannyh tipa Terradata logical model, Sybase IWS, Oracle/IBM EDW model. А есть ли у кого-нибудь опыт создания хранилищ на основе готовых решений, готовых моделей данных (см. выше)? Так ли легко это внедрять? Есть ли риск, что при отсутствии нормальных источников данных (учетной системы) не удастся наполнить такие хранилища данными? И приходится ли реально перепроектировать эти готовые модели, если например бизнес-процессы под них не хочется менять? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2004, 16:34 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
А есть ли у кого-нибудь опыт создания хранилищ на основе готовых решений, готовых моделей данных (см. выше)? Шаблоны готовых решений издложены классиками DWH Так ли легко это внедрять? Есть ли риск, что при отсутствии нормальных источников данных (учетной системы) не удастся наполнить такие хранилища данными? "Нормальные" источники как правило встречаются в теории а на практике все гораздо мрачнее. На то и ETL, чтобы из возможного получить максимум желаемого. И приходится ли реально перепроектировать эти готовые модели, если например бизнес-процессы под них не хочется менять? На практике я еще ни разу не встречался, чтобы бизнес процессы в ERP/OLTP менялись. Как правило подстраивается ETL, DWH в меньшей мере. А вообще, это тянет на некороткий разговор под пару ящиков пива. :-). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2004, 17:11 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
backfireШаблоны готовых решений издложены классиками DWH не встречались ли Вам структуры для содания систем бюджетирования с возможностью версионности бюджетов, зависимостей между ними и анализа "что-если"? если да, то где? можно ли получить доступ к этой информации? предвосхищая Yurii - Enterprise Planning уже изучается, интересуют именно модели схем данных под задачу качественного бюджетирования ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 12:49 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Bear_ backfireШаблоны готовых решений издложены классиками DWH не встречались ли Вам структуры для содания систем бюджетирования с возможностью версионности бюджетов, зависимостей между ними и анализа "что-если"? если да, то где? можно ли получить доступ к этой информации? предвосхищая Yurii - Enterprise Planning уже изучается, интересуют именно модели схем данных под задачу качественного бюджетирования Dlia etogo ocen chasto nikakoj DWH ne nuzen. Mozete posmotret http://www.corporate-planning.com/en/index.php . da i cena v n raz mense ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 16:21 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
v dogonku :) Ne dumaju, cto sredstva vizualizacii (tipo Vognos ili BO) butut idealny dlia biudzetirovanija ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 16:25 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
_Dogv dogonku :) Ne dumaju, cto sredstva vizualizacii (tipo Vognos ili BO) butut idealny dlia biudzetirovanija Vognos citat' kak Cognos ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 16:28 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
So vsem soglasen. Naskolko videl, vse korporacii u kotoryh est' model dannyh (logiceskaja libo fiziceskaja) starajutsia ne rasprostraniatsia na temu - a cto i kak tam vnutri. (Da i kakaja raznica dlia zakazcika - glavnoe ctoby eDWH otvetil na biznes voprosy) авторНа практике я еще ни разу не встречался, чтобы бизнес процессы в ERP/OLTP менялись. Как правило подстраивается ETL, DWH в меньшей мере. Biznes processy casce vsego net, no pri nedostatke dannyh (naprimer informacija ne sohranialas), izmenenija v ERP/CRM pocti vsegda. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 16:34 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
_Dogv dogonku :) Ne dumaju, cto sredstva vizualizacii (tipo Vognos ili BO) butut idealny dlia biudzetirovanija речь идет о специализированном продукте для построения сложносвязанных бюджетов с хорошими возможностями консолидации и получения ответов на вопросы "what-if" - Cognos Enterprise Planning [уточнение по вопросу] основная задача - бюджетирование производственной себестоимости и всего что с этим связано, вплоть до условно-постоянных затрат (зп, налоги и т.п.) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 18:31 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2Bear_ Мы как раз и занимаемся бюджетированием производственной себестоимости для больших производственных групп таких как Лукойл. Сомневаюсь, что Cognos Planning тут сильно поможет. Это добротное, но простенькое бюджетирование. Производственное бюджетирование самый сложный вариант. Для решения этой задачи в общем виде нужно иметь матричную систему калькуляции плановой и фактической себестоимости, а желательно еще и прогностический режим. Такой системы нет пока даже в SAP R3. Это всегда внешний компонент. Без матричного метода вам не обсчитать правильно циклические затраты. Для маленького завода это не проблема. Просто пренебрегаем 2-3% себестоимости на возвратном цикле и все. А для серьезного предприятия это огромные деньги и упрощение не допустимо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 18:57 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Владимир ИвановМы как раз и занимаемся бюджетированием производственной себестоимости для больших производственных групп таких как Лукойл. ... Для решения этой задачи в общем виде нужно иметь матричную систему калькуляции плановой и фактической себестоимости, а желательно еще и прогностический режим. ... Без матричного метода вам не обсчитать правильно циклические затраты. Для маленького завода это не проблема. Просто пренебрегаем 2-3% себестоимости на возвратном цикле и все. А для серьезного предприятия это огромные деньги и упрощение не допустимо. Все так. Каюсь. :) И цикл возвратный и больше 4х переделов, на любом из которых результат - и готовая продукция и сырье. И "одинаковых" цехов по 2-4 на каждом комбинате.. Можете в общих чертах рассказать в какую сторону движетесь? Как мне видится на данный момент - очень интересно былобы попробовать реализовать подобную систему через ROLAP и Writeback - "что-если" в одном влаконе. Но какую структуру таблиц и связей выбрать для данной задачи - вот в чем вопрос основной. У "классиков" об этом ни слова. Не хочется изобретать велосипед - нужно как минимум 200 лошадиных сил . ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 19:16 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
OK. Посмотрел Enterprise Planning. Как и Corporate Planner (линк выше), похоже использует тот же подход. В моем понимании, не совсем то, что Вам нужно. Но, т.к. о шаблонах для производства/бюджетов не слышал, то сложно сказать, на сколько ЕР или СР будут полезны. Нетривиальная задача. По мне, смахивает на задачу BPM/BPM(Business Performance Management/Business Process Management) - таких методик есть много, многие включают в себя SPSS для data mining + система калькуляции (как писал ВИ). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.08.2004, 10:57 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Владимир, Мы как раз и занимаемся бюджетированием производственной себестоимости для больших производственных групп таких как Лукойл. Сомневаюсь, что Cognos Planning тут сильно поможет. Это добротное, но простенькое бюджетирование. Производственное бюджетирование самый сложный вариант. Мои коллеги внедряют Cognos Planning в разных компаниях, в том числе и в нескольких структурах Лукойла... И я бы не сказал, что Cognos Planning - это простенькое бюджетирование. Там можно наваять сложные модели, да и методов прогнозирования там около десятка. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.08.2004, 20:50 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Юра, это локальные внедрения Cognos. Как есть и локальные внедрения BO в рамках отдельных малых подразделений под их отвественность. Серьезных вредрений быть не должно, т.к. вас нет в Положении о Калькулировании и Бюджетировании. Причем Лукойл сейчас избавляется от таких локальных внедрений, например был снесен BO в Перми. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.08.2004, 13:19 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Владимир ИвановЮра, это ... в Перми. Боюсь показаться настырным - может ответите на вопрос? Можете в общих чертах рассказать в какую сторону движетесь? Какой принцип выбрали для построения матричного метода? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.08.2004, 14:24 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Владимир, Юра, это локальные внедрения Cognos. Серьезных вредрений быть не должно, т.к. вас нет в Положении о Калькулировании и Бюджетировании. Я не думаю что наши внедрения можно назвать локальными. Просто мы работаем не со структурами по добыче и переработке нефти, а со смежными бизнесами, у Лукойла их много... Причем Лукойл сейчас избавляется от таких локальных внедрений, например был снесен BO в Перми. Это интересная информация... И что, теперь там внедряют MS AS? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.08.2004, 11:59 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2Bear_ Мы движемся в сторону методик за которые дали в свое время Нобелевские премии по экономике. Матричный метод калькуляции производственных затрат описан в любом хорошем учебнике по экономике. Для нефтегазовых компаний данный метод считается стандартным и лучшим. Для примера крупнейшая нефтяная компания Exxon внедрила его первая как и первая внедрила интеграцию таких калькуляций с SAP R3. В принципе этот метод особенно хорош для крупных промышленных групп и крупных производств, где много возвратных технологических циклов и разнопрофильных производств. Кроме нефтянки это энергетика, машиностроение, производство стройматериалов с вторичной переработкой и т.д. При сравнительной простоте концепции матричного метода (решение системы линейных уравнений, где компоненты себестоимости есть искомые переменные), реализация его сложна. Точнее эксплутация очень проста, а реализация проблематична. Для реального предприятия вам придется решать матрицы примерно на 2 млрд. элементов, причем решение должно идти методом без погрешности. Для этого нужен серьезный мат. движок оптимизированый для матриц данного вида. Даже улчшие общие алгоритмы не могут решать такие матрицы за 40 секунд. Потом для отображения результатов калькуляций в человеческом виде OLAP-отчетов вам потребуется специфический DWH, который умеет работать с данными в матрицах, а не просто в таблицах. Кроме этого нужны очень опытные консультанты для построения эк. модели из эк. объектов. Это трансляция тех. объектов в эк.объекты. Еще полюс матричных калькуляций это автоматическая генерация проводок закрытия всех производственных счетов для всех связанных бухгалтерий. Кроме этого часто используют бинарные матрицы, где идут многовариантные расчеты. Например, раздельный расчет для экономистов и бухгалтеров, прогностический расчет и т.д. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 06:56 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2Владимир Иванов Вопрос - при решении таких больших систем линейных уравнений вы пользуетесь своим инструментарием? Frontline Systems-ские решатели не юзаете? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 10:05 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2Владимир Иванов Вопрос - при решении таких больших систем линейных уравнений вы пользуетесь своим инструментарием? Frontline Systems-ские решатели не юзаете? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 10:06 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Нет, мы используем свой алгоритм решения построенный на базе метода Холецкого. Наша реализация быстрее Холецкого в 1000 раз и не генерирует погрешность (алгоритм класса нулевой накопительной погрешности). А сам метод Холецкого быстрее в 1000 раз стандартного решения методом Гаусса. Вот вам и разница в 1 млн. раз. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 10:56 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Владимир ИвановНет, мы используем свой алгоритм решения построенный на базе метода Холецкого. Наша реализация быстрее Холецкого в 1000 раз и не генерирует погрешность (алгоритм класса нулевой накопительной погрешности). А сам метод Холецкого быстрее в 1000 раз стандартного решения методом Гаусса. Вот вам и разница в 1 млн. раз. Извиняюсь за офтопик, но выскажусь. 0. Классическая реализация Гаусса это позапрошлвй век. 1. Метод Холецкого является частным метом LU разложения, действителен на положительноопределенных симметричных матрицах. Считает корни, а это связано со всеми негативными моментами Выч. Мат. 2. Если ваша матрица сильно разрежена, в чем больше чем уверен, то Холецкого вообще вспоминать не слодовало бы, а надо брать прогоночные методы из численных методо матфизики. Благо в последнее время, на деньги Daimler Chrysler, Boeing, Airbus Industry эти методы оптимизировали дальше некуда, так что изобретать велосипед не надо. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 11:28 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2Владимир Иванов То есть решалку писали сами? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 11:30 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2backfire. Мне кажется ваше замечание из серии "Мне тоже читали МатАн и тоже что-то помню". Есть теория, а есть практика. Метод Холецкого довольно часто используют на практике для решения разряженных матриц сколько бы его не критиковали идеалисты. Мощности даже современных ПК хватает для решения таким методом матриц с диагональю 5000 элементов за 10 минут и 1000 элементов за 1 минуту. Такой производительности достаточно для многих задач, поэтому на практике Холецкий очень часто используется в экономических приложениях. Наш метод и есть вариант прогоночного нулевой погрешности, однако велосипед изобретать стоило, т.к. он заточен именно для реальных матриц для задач по калькуляции себестоимости. Частные оптимизации всегда очень и очень сильны. Такие матрицы действительно разряжены, но их разряженность для задачи себестоимости имеет типовые закономерности которые мы используем для оптимизации. Поэтому для решения реальной матрицы с диагональю в 35000 элементов (более 1 млрд. ячеек) нужно всего 40 секунд, поэтому не нужно пользователям использовать обычную двухэтапную верификацию данных (это замечание для тех кто практически использует такие решения). Это лучший из известных мне результатов. Наш ближайший конкурент тоже самописный калькулятор которые делают коллеги из Аризоны примерно в 2,5 раза хуже и только движок стоит $40 килобаков. Однако наш метод может показать результат в 10 раз хуже для матриц других типов специфичных для других задач. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 12:01 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2Владимир Иванов Спасибо за ответ. Владимир ИвановПри сравнительной простоте концепции ... реализация его сложна. ... Для реального предприятия .. матрицы примерно на 2 млрд. элементов, .. решение .. без погрешности. ... нужен серьезный мат. движок оптимизированый для матриц данного вида. Какой движок используете Вы? SQL Server и его SP и UDF? 2 млрд - это на каком количестве сырьевых компонентов? Сколько переделов? Владимир Иванов ... специфический DWH, который умеет работать с данными в матрицах, а не просто в таблицах. Что имеется в виду? Данные находятся не в таблицах в результате формирования матрицы? Владимир Иванов ... нужны очень опытные консультанты для построения эк. модели из эк. объектов. ... Это ясно. Интересуют общие описания технологии данных консультантов - чтобы оценить эффективность возможного сотрудничества. Владимир Иванов Еще полюс матричных калькуляций это автоматическая генерация проводок закрытия всех производственных счетов для всех связанных бухгалтерий. Кроме этого часто используют бинарные матрицы, где идут многовариантные расчеты. Например, раздельный расчет для экономистов и бухгалтеров, прогностический расчет и т.д. Вы имеете в виду правильное разнесение затрат в себестоимость? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 12:30 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Переделов смотря каких. Если формальных (как крупные группы технологий) то наверное десяток. Если как переход между объектами в тех. цепочке, то около 40. Это для нефтегазовой отрасли. Завязки на число переделов нет. Методику обычно реализует в наших проектах наш партнер ПАКК. Методика это их copyright, поэтому в открытом форуме не могу говорить о деталях, на встрече можно хоть толмуты полистать. Для сотрудничества по таким вопросам public форум не уместен. Пишите в почту ivanov-soft@inbox.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 16:21 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Владимир Иванов Метод Холецкого довольно часто используют на практике для решения разряженных матриц сколько бы его не критиковали идеалисты. Мощности даже современных ПК хватает для решения таким методом матриц с диагональю 5000 элементов за 10 минут и 1000 элементов за 1 минуту. Только разреженные матрицы с диагональю в 100000 элементов, я решал лет 5-7 назад с затратами времени порядка 1 секунды на PIII-450. Писал сам на Fortran, исходный код могу показать, на Backup СD, записанном еще в 99 году. И численные методы мне читали, не в курсе матана как будущему учителю физики, а по-взрослому, как будущему инженеру-исследователю. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 20.08.2004, 17:03 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Только разреженные матрицы с диагональю в 100000 элементов, я решал лет 5-7 назад с затратами времени порядка 1 секунды на PIII-450. Писал сам на Fortran, исходный код могу показать, на Backup СD, записанном еще в 99 году. Буратино говорил про такое просто - "Врете дяденька!". С такой скоростью может работать только метод исключений. А это очень и очень частный случай. В прочем буду рад ошибиться и посмотреть ваш код. Как это можно сделать? Обидно если какие-то 125 неожиданно всплывших проблем помешают этому. И численные методы мне читали, не в курсе матана как будущему учителю физики, а по-взрослому, как будущему инженеру-исследователю. Володя, тебе так хочется меня обидеть? Думаю это не так просто сделать. Володя, ты плохо знашь академическую систему бывшего СССР. Я действительно по образованию профессиональный педагог и закончил самый сильный педун в СНГ (второй к слову этом плане даже не МГУ, а педун в Москве). Но ты ошибаешься если думаешь что курс обучения в Герцовнике состоял из изучения школьного учебника физики (собственно мы его даже не открывали, т.к. это частный случай методики и не более). Обучение состояло на 80% из профессионального изучения дидактики (общие основы преподавания чего-либо вообще) и как тебе не удивительно будет узнать из специального физ. обучения на глубоком уровне. Все физ. факульты обязательно в СССР имели глобальную специализацию. Физика в Герцовнике это физика твердого тела, т.е. физика кристаллов и полупроводников. Соотвественно по этой тематике там были и есть лучшие спецы. Тот же Гороховатский до сих пор при министре за эту тему отвечает. То что тебе не читали в курсе численные методы это понятно. Нам и в универе в СПБ это читали в даже несколько разных курсов. Ответ прост. В универе СПБ велась почти вся вычислительная физика СССР (узнай кто такой Мордовин), а в Герцовнике полупроводники. И то и другое в СССР было предано анафеме как происки империалистов и спецы-десиденты уехали в Питер, поэтому даже в МГУ курсы вычисл. физики появились только в 1992г. Физика полупроводников это очень серьезная вычислительная физика, т.к. там почти все решения делаются на основе квантовой теории. Поэтому мне даже после нескольких специальных курсов по вычислительной физике не хватало знаний и главное практики. Я уже студентом был не будущим, а действующим физиком-исследователем и мне удалось найти интересные моменты в гибридных состояниях, которые сейчас даже в учебники включают. Хотя за это я и получил гранты Сороса и РАН, я до сих пор считаю это баловством. По окончанию ВУЗа, я мог пойти по двум направлениям вычислительная физика в твердом теле или дидактика. Я выбрал второе. Мне больше нравиться организовывать и обучать людей. Потом физиков и информатов навалом, а вот специалистов обученных профессионально воздествовать на мозги и мотивацию людей мало. Забавно только последние 2-3 года консалтеры заговорили об проф. организации мотивации персонала. Мне же Ланина читала куда более сильный курс по мотивации много лет назад. Вот такое письмецо за жизнь после поездки в сарахарные заводики в Казахстан. Все сдали, пора пить пиво! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.08.2004, 16:01 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Почитал Константин Лисянский, Владимир Иванов ...... Ну что могу сказать сам не так давно занимаюсь DWH и DM, но коекакие победы есть. ETL это вообще штука такая, я например считаю что это самое главное так как много раз сталкивался с тем что данные почемуто не попадают в DWH (действительно почему то??? потому что ETL хреновая). У Владимира Иванова мне понравилось (DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах) прям как закон об иномарках не старше 7 лет. Владимир можно и 50 лет работать и делать ошибки из школьной программы, технологии растут как грибы, вы еще вчера что то такое использовали сегодня, это уже история. Самое главное это технологии и предметная область. Работая в торговли и ресторанном бизнесе и там совершенно разные методы хранения и технология хранения даных, хотя и там и там касса склад и бекофис. Вибирая СУБД только исходя из ее производительности на расчетном (умноженном на два) объеме данных. И вообще в Оракл столько наворотов по DWH просто пипец, но вот только я их не использую, считаю что все гениальное простое как колесо, ничего проше нет, но зато какой блин двигатель науки. Можно читать много книг о том как там в Америке народ блин строит DHW и все такое, вот только у нас не Америка и технология постройки своя и не их клеше. И к слову первый раз на форуме и много интересного, буду чаше сдесь бывать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.11.2004, 17:57 |
|
||
|
|

start [/forum/search_topic.php?author=slavkoas&author_mode=last_posts&do_search=1]: |
0ms |
get settings: |
9ms |
get forum list: |
13ms |
get settings: |
5ms |
get forum list: |
10ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
38ms |
get topic data: |
8ms |
get forum data: |
2ms |
get page messages: |
49ms |
get tp. blocked users: |
1ms |
| others: | 657ms |
| total: | 796ms |

| 0 / 0 |
