Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Всем привет, Часто приходится в последнее время слышать, что где-то хранилище имеет размер 100 гигабайт, где-то - терабайты. Хранилище распухает зачастую по причине создания индексов, промежуточных таблиц. Есть ли у кого-нибудь мнение, стоит ли хранить все данные для анализа и отчетности в одной базе, или может лучше иметь много кубов среднего размера (использовать технологию MOLAP)? При этом я не исключаю, что будет большая реляционная БД, в которую данные будут собираться из разных источников, поддерживаться суррогатные ключи и т.п., но это реляционное хранилище будет использоваться только для хранения данных, будет служить источником для наполнения кубов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 14:49 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
А в чем собственно проблемы? Стоимость хранения гигабайта падает быстрее чем наполняется хранилище данных :-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 15:42 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Можно, конечно использовать реляционную базу только для хранения данных (этот подход, насколько я понял использует Владимир Иванов). В этом случае арихтиектура хранилища будет называться по теории hub-and-spoke или централизованное хранилище, основанное на зависимымых витринах данных. Несомненно, при этом Вы получите преимущества, которые даёт хранилище данных - консолидация из разных источников, поддержка историчности, возможность очистить данные во время их загрузки в хранилище, отсутствие дублирования и избыточности данных. Понятно, что кубы, построенные на данных хранилища будут давать более корректные результаты (как с точки зрания качества данных, так и с точки зрения корректной обработки истории изменений). В этом плане такую архитектуру можно рассматривать как первый шаг к нормальной аналитике. Дальше можно будет добавить к аналитическим инструментам статистические пакеты, тулзы типа data mining. Дальше идёт closed-loop BI, active data warehousing. Но это далеко не сразу и далеко не у всех. За всё это надо платить. Во-первых, Вам надо понимать, как правильно орагинизовать данные в хранилище с точки хрения состава таблиц, как организовать поддержку истории изменений, как генерировать суррогатные ключи. Надо также понимать кое-что в приёмах очистки данных (это отдельная очень сложная область), есть ещё управление метаданными. Помимо этого построение хранилища данных - это не затея для одного человека, поскольку требует наличия знаний и опыта в нескольких областях. Соответственно, работать должна команда. Если есть команда, то нужно уметь ей управлять - возникает project management. Дальше, поскольку последовательность задач, которые нужно выполнить, чтобы построить и поддерживать хранилище, не является тривиальной, должна быть хорошая методология построения хранилища данных (набор документов, регламентирующих то, кто когда у куда должен идти, что и как делать, что должно быть на выходе и т.д.). Методологии на дороге не валяются. Чтение, например, Кимбала (The Data Warehouse Toolkit) может приблизить к пониманию того, что методология нужна. Однако сама книга не является методологией. Такие методологии являются ноу-хау компаний, которые специализируются на построении хранилищ данных. Есть ещё Red Book от компании IBM, которая тоже делает намёк на методологию построения ХД, советую почитать, если есть серьёзный интерес. Если таковая методология отсутвтует у команды, которая строит хранилище данных, то вероятность построить неправильно довольно высока. Естественно, надо правильно выбрать инструменты для решения всех задач построения хранилища - СУБД (самая критичная часть), средства ETL, CASE-средства, средства OLAP/Reporting, средства управления метаданными и т.д. В общем, получается не за угол пописать сходить :) Вот вам и подводные камни. Сорри, что так сумбурно. По поводу построения хранилищ на платформе MOLAP, мне кажется, можно забыть. Проблема в масштабируемости, поддержке историчности, открытости. Многомерные базы масштабируются гораздо хуже реляционных (может быть, пока, но это факт), язык запросов SQL стандартизован, многомерные базы сами себе на уме. Все уже давно строят хранилища на реляционных БД. Надеюсь, это поможет. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 16:09 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
To backfire & Константин: А в чем собственно проблемы? Стоимость хранения гигабайта падает быстрее чем наполняется хранилище данных :-) Я как-то обсуждал этот вопрос с представителем компании, в которой объемы данных очень велики (думаю больше чем у компании Walmart и не меньше чем у France Telecom). Все данные лежат в лог-файлах, и никто в единую БД это не сливает - делают базы на платформе Oracle для решения локальных задач. Если закачать все в одно место - то даже процедура бэкапирования и поднятия многотерабайтной базы - это большая проблема. Не будет ли проблем с масштабированием? Не будут ли расти по экспоненте расходы на апгрейдирование сервера? например, нет ли такого, что сервак на котором можно хранить терабайт стоит Х долларов, а в терабайта - Х*5 долларов, а 3 терабайта - Х*25? Каждый новый индекс будет создаваться медленно, запросы делать к такой БД - тоже непросто. Или может я не прав, и управляться с гигантской базой несложно, и SQL-запросы к ней будут выполняться быстро? Есть ли какие-нибудь расценки на хранение данных в привязке к объему данных, и чтобы при этом у сервера хватало мощности обрабатывать аналитические запросы? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 16:38 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Юрий, естественно, с большими хранилищами данных может справиться не каждая платформа. Я могу сказать за СУБД Teradata. На данный момент самое большое хранилище данных на Терадате работает на системе из порядка 300 узлов - это компания SBC (WalMart имеет второе по размеру хранилище после SBC). На данный момент можно собрать сервер из 512 узлов (узлы - это двух- или четырёхпроцессорные серверы). Масштабироваться ещё есть куда. Вот краткая характеристика системы SBC: Хранилище данных поддерживает более 140 приложений, обслуживающее более 10 000 пользователей в более, чем 16 компаниях группы SBC (Southwestern Bell Telephone Company, Pacific Bell, SBC Services, Inc., SBC Management Services, Inc. и др.) Ежедневно выполняется 100 000 SQL-запросов. Вот состояние в WalMart на весну 2002 года: Общее дисковое пространство - свыше 270 ТБ Более 45 000 пользователей Более 1 500 одновременно работающих пользователей Есть таблица, содержащая более, чем 70 миллиардов строк Всего в хранилище более 5 000 таблиц Более 100 000 запросов в день В день грузится более 1,5 миллиарда записей в режиме непрерывной загрузки Хранилище обслуживает более 40 приложений Среднее время отклика на запрос менее 3 минут Обслуживают это хозяйство 3 администратора Сколько всё это стоит не знаю. Но, думаю, много - система огромная. Но люди её содержат и развивают (начали давно - раньше 1990 года) - значит приносит немаленькие деньги. Надеюсь, сомнения в возможностях масштабирования сняты. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 17:02 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
ИМХО самый большой подводный камень - время. 1. Если в ХД заливаются гигабайты данных (в процессе его инициализации), то очень высока стоимость исправления ошибок загрузки, выявленных после инициализации ХД. После исправления ошибки ETL приходится повторять инициализирующую загрузку, что может занять больше одного дня. Если подобных ошибок несколько, то соответственно вырастает и время их фиксации. Это - проблема при внедрении, например на этапе ОЭ (OFF Естественно - при разработке это - не менее актуальная проблема, но обладающая преимуществом: Заказчик не "бьет по башке" из-за недоступности ХД.) 2.Кроме того, в какой-то момент некоторые вспомогательные операции по обслуживанию БД становятся очень продолжительными (backup, reorg etc). 3. Так же становятся очень востребованными агрегирующие таблицы. В остальном - полность солидарен с Константином. Особенно в части управления проектом :0) ЗЫ SQL запросы работают быстро при условии, что модель БД спроектирована грамотно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2004, 17:16 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Ну, промежуточные таблицы и служебные, может, и стоит хранить отдельно. Одним из неописанных плюсов единого хранилища является большая "лёгкость" поддержания целостности данных, поддержки и сопровождения ETL ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 11:45 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
легкость ... поддержки и сопровождения ETL Насчет легкости в этом вопросе я бы не зарекался. Приходится тюнить SQL код, который, казалось-бы, не должен представлять никаких проблем. Однако, при работе с большими массивами данных может существенно затормозить загрузку, или даже просто застопорить. Можно возразить, что: "SQL код, написанный грамотно и правильно, протестированный не должен представлять никаких проблем". Отвечу: "Может" ХД ведь растет. Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код. Причем при написании и тестировании этот код работал, и не плохо, а вот ХД увеличилось процентов на 5-10% - все, тормоза. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 14:05 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
JimmyХД ведь растет. Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код. Причем при написании и тестировании этот код работал, и не плохо, а вот ХД увеличилось процентов на 5-10% - все, тормоза. Значит хреново написали, если при приросте всего 20% тормоза начинаются. Да и для тестирования надо генерить объемы заведомо большие, чем встретятся на практике. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 14:20 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код Значит хреново написали, если при приросте всего 20% тормоза начинаются Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 15:04 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Jimmy Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код Значит хреново написали, если при приросте всего 20% тормоза начинаются Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код Какая разница, то ли их 10, то ли их 510. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 16:13 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Какая разница, то ли их 10, то ли их 510. Очень большая, смею заверить. Код загрузки для 10-ти таблиц может написать один человек в достаточно короткий срок. При этом весьма качественно. Когда их, таблиц, 500, то процессы пишут несколько человек, что дает прирост производительности (нелинейный!) и усложняет управление процессом реализации (почти линейно!). Т.е. налицо очень большие риски рассогласования кода и, соответственно, ошибок, как логических, так и синтаксических. ЗЫ А вообще странно слышать от человека, занятого в IT индустрии, такие слова, т.к. принцип "Чем больше кода, тем больше ошибок" - это аксиома для разработчика ПО, не требующая доказательств. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 17:25 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
1. Если в ХД заливаются гигабайты данных (в процессе его инициализации), то очень высока стоимость исправления ошибок загрузки, выявленных после инициализации ХД. После исправления ошибки ETL приходится повторять инициализирующую загрузку, что может занять больше одного дня. Если подобных ошибок несколько, то соответственно вырастает и время их фиксации. Интересно, если заливка гигабайтов может занять больше одного дня, сколько же времени займет загрузка терабайтов... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 17:40 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2 Jurii Еще не пробовал ;0) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 17:46 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Юр, так железяки тоже другие для терабайтов:-) А вообще, смотреть надо по обстоятельставм. Не всегда надо делать инициализационную загрузку. Возможно, где-то надо восстанавливать бэкапы - не фулл, конечно. Но вообще, если у Вас такие объёмы, то разработка ETL должна быть максимально надёжной. Т.е., скажем, DTS с его порой проявляющимися недетерминированными глюками - не лучший вариант. Бюджеты проектов другие уже. Тут скорее, целесообразнее говорить об Ascential, Informatica, например. Железо должно быть в полном порядке. Не то, чтобы супермощное, но хотя бы не служащее причиной ошибок. Короче, тонкостей много:-) Кстати, по нашим оценкам объём трудозатрат при разработке ETL c использованием DataStage примерно в 2 с небольшим раза меньше, чем при реализации той же функциональности на DTS и "коленочной рукописью". Вот и считайте, каков должен быть проект, чтобы это окупилось. Учтите стоимость специалистов. Остапа понесло...:-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 17:55 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
С моей точки зрения цетральная проблема в больших DWH это правильное ПРОЕКТИРОВАНИЕ. Большие DWH жестоко мстят даже за небольшие ошибки в проектировании т.к. при изменении структуры DWH вам нужно часто перекачать данные в новую структуру, а это может занять несколько дней только на одну итерацию. Другая типовая проблема проблема это потеря исходных данных, т.к. хралище сделали для хранения только сурогатов для расчетов а сами данные потеряли. Глюки в DWH нужно убирать сразу, т.к. поставить заплатку на рабочий DWH очень тяжело (итерация трансформации данных долгая). Еще одна проблема это то что для больших DWH характеры тяжелые SQL-запросы при заполнии кубов или при промежуточных расчетах. Тут нужно владеть всеми тонкостями SQL-сервера который выбран для DWH. Будь это MS SQL, Oracle или Tera Data специалист отвечающий за проектирование DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах. Наличие такого специалиста и определяет платформу, т.к. такие профи единичны на рынке. Поэтому если бы у меня работал Константин я бы выбирал Терадату, если Биркофф - Oracle, если бы делал сам - MS SQL. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 18:38 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Владимир ИвановС моей точки зрения цетральная проблема в больших DWH это правильное ПРОЕКТИРОВАНИЕ. Большие DWH жестоко мстят даже за небольшие ошибки в проектировании т.к. при изменении структуры DWH вам нужно часто перекачать данные в новую структуру, а это может занять несколько дней только на одну итерацию. Другая типовая проблема проблема это потеря исходных данных, т.к. хралище сделали для хранения только сурогатов для расчетов а сами данные потеряли. Глюки в DWH нужно убирать сразу, т.к. поставить заплатку на рабочий DWH очень тяжело (итерация трансформации данных долгая). Еще одна проблема это то что для больших DWH характеры тяжелые SQL-запросы при заполнии кубов или при промежуточных расчетах. Тут нужно владеть всеми тонкостями SQL-сервера который выбран для DWH. Будь это MS SQL, Oracle или Tera Data специалист отвечающий за проектирование DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах. Наличие такого специалиста и определяет платформу, т.к. такие профи единичны на рынке. Поэтому если бы у меня работал Константин я бы выбирал Терадату, если Биркофф - Oracle, если бы делал сам - MS SQL. Один из немногих случаев, когда я с Вами полностью согласен :-) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2004, 19:37 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
To DmitryS: Юр, так железяки тоже другие для терабайтов:-) А какие у этих железяк скорости копирования данных? Гигабайты в секунду, или все же помедленнее? Если почитать постинги этой дискуссии, то становится понятно, почему считается, что хранилища внедряются годами и стоят очень дорого. Интересно, есть ли статистика, в скольки процентах случаев проекты по созданию хранилищ были провальными? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 10:06 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Jurii Интересно, есть ли статистика, в скольки процентах случаев проекты по созданию хранилищ были провальными? ja slyshal o 60%. Proval izza technicheskih trudnostei libo izza plohoi modeli DWH/postanovki zadaci. God nazad. Kakajata analiticeskaja kontora. Ssylki ne pomniu. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 11:04 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
60% - похоже на правду ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 14:55 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
2/3 проваленных IT-проектов это для общей массы (статистика Standish Group). По моим наблюдениям BI-проекты существенно успешнее IT-проектов других типов. Даже для сложного решения можно выйти на весьма приличный протип за 1 месяц. Весьма приличный - это значит что многие пользователи могут его воспринимать как конечный продукт и даже эксплуатировать. Сложное решение для нефтянки может внедряться 8 месяцев и в основном проблемы будут организационные. Мои выводы такие. Если вам нужно получить систему для принятия решений, BI-решение как правило дешевле и что важнее менее рискованно чем другие варианты в том числе на без спец. модулей в ERP-системах. Как минимум для SAP это точно так. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 15:10 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
po moim nabliudenijam - 50/50. Cem krupnee zakazcik, cem bolse direktorov, otdelov, istocnikov dannyh - tem risk provala vyse. Risk snizaetsia procentov na 80-90 pri ispolzovanii gotovyh modelei dannyh tipa Terradata logical model, Sybase IWS, Oracle/IBM EDW model. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 13.08.2004, 15:27 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
Risk snizaetsia procentov na 80-90 pri ispolzovanii gotovyh modelei dannyh tipa Terradata logical model, Sybase IWS, Oracle/IBM EDW model. А есть ли у кого-нибудь опыт создания хранилищ на основе готовых решений, готовых моделей данных (см. выше)? Так ли легко это внедрять? Есть ли риск, что при отсутствии нормальных источников данных (учетной системы) не удастся наполнить такие хранилища данными? И приходится ли реально перепроектировать эти готовые модели, если например бизнес-процессы под них не хочется менять? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2004, 16:34 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
А есть ли у кого-нибудь опыт создания хранилищ на основе готовых решений, готовых моделей данных (см. выше)? Шаблоны готовых решений издложены классиками DWH Так ли легко это внедрять? Есть ли риск, что при отсутствии нормальных источников данных (учетной системы) не удастся наполнить такие хранилища данными? "Нормальные" источники как правило встречаются в теории а на практике все гораздо мрачнее. На то и ETL, чтобы из возможного получить максимум желаемого. И приходится ли реально перепроектировать эти готовые модели, если например бизнес-процессы под них не хочется менять? На практике я еще ни разу не встречался, чтобы бизнес процессы в ERP/OLTP менялись. Как правило подстраивается ETL, DWH в меньшей мере. А вообще, это тянет на некороткий разговор под пару ящиков пива. :-). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2004, 17:11 |
|
||
|
Какие подводные камни бывают у больших DWH?
|
|||
|---|---|---|---|
|
#18+
backfireШаблоны готовых решений издложены классиками DWH не встречались ли Вам структуры для содания систем бюджетирования с возможностью версионности бюджетов, зависимостей между ними и анализа "что-если"? если да, то где? можно ли получить доступ к этой информации? предвосхищая Yurii - Enterprise Planning уже изучается, интересуют именно модели схем данных под задачу качественного бюджетирования ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2004, 12:49 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=32647573&tid=1872071]: |
0ms |
get settings: |
9ms |
get forum list: |
20ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
134ms |
get topic data: |
12ms |
get forum data: |
2ms |
get page messages: |
88ms |
get tp. blocked users: |
1ms |
| others: | 239ms |
| total: | 511ms |

| 0 / 0 |
