powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Какие подводные камни бывают у больших DWH?
25 сообщений из 49, страница 1 из 2
Какие подводные камни бывают у больших DWH?
    #32644751
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Всем привет,

Часто приходится в последнее время слышать, что где-то хранилище имеет размер 100 гигабайт, где-то - терабайты. Хранилище распухает зачастую по причине создания индексов, промежуточных таблиц. Есть ли у кого-нибудь мнение, стоит ли хранить все данные для анализа и отчетности в одной базе, или может лучше иметь много кубов среднего размера (использовать технологию MOLAP)? При этом я не исключаю, что будет большая реляционная БД, в которую данные будут собираться из разных источников, поддерживаться суррогатные ключи и т.п., но это реляционное хранилище будет использоваться только для хранения данных, будет служить источником для наполнения кубов.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32644929
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А в чем собственно проблемы?
Стоимость хранения гигабайта падает быстрее чем наполняется хранилище данных :-)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32644997
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Можно, конечно использовать реляционную базу только для хранения данных (этот подход, насколько я понял использует Владимир Иванов).
В этом случае арихтиектура хранилища будет называться по теории hub-and-spoke или централизованное хранилище, основанное на зависимымых витринах данных. Несомненно, при этом Вы получите преимущества, которые даёт хранилище данных - консолидация из разных источников, поддержка историчности, возможность очистить данные во время их загрузки в хранилище, отсутствие дублирования и избыточности данных.
Понятно, что кубы, построенные на данных хранилища будут давать более корректные результаты (как с точки зрания качества данных, так и с точки зрения корректной обработки истории изменений).
В этом плане такую архитектуру можно рассматривать как первый шаг к нормальной аналитике.
Дальше можно будет добавить к аналитическим инструментам статистические пакеты, тулзы типа data mining. Дальше идёт closed-loop BI, active data warehousing. Но это далеко не сразу и далеко не у всех.


За всё это надо платить. Во-первых, Вам надо понимать, как правильно орагинизовать данные в хранилище с точки хрения состава таблиц, как организовать поддержку истории изменений, как генерировать суррогатные ключи. Надо также понимать кое-что в приёмах очистки данных (это отдельная очень сложная область), есть ещё управление метаданными.
Помимо этого построение хранилища данных - это не затея для одного человека, поскольку требует наличия знаний и опыта в нескольких областях. Соответственно, работать должна команда. Если есть команда, то нужно уметь ей управлять - возникает project management. Дальше, поскольку последовательность задач, которые нужно выполнить, чтобы построить и поддерживать хранилище, не является тривиальной, должна быть хорошая методология построения хранилища данных (набор документов, регламентирующих то, кто когда у куда должен идти, что и как делать, что должно быть на выходе и т.д.). Методологии на дороге не валяются. Чтение, например, Кимбала (The Data Warehouse Toolkit) может приблизить к пониманию того, что методология нужна. Однако сама книга не является методологией. Такие методологии являются ноу-хау компаний, которые специализируются на построении хранилищ данных. Есть ещё Red Book от компании IBM, которая тоже делает намёк на методологию построения ХД, советую почитать, если есть серьёзный интерес.
Если таковая методология отсутвтует у команды, которая строит хранилище данных, то вероятность построить неправильно довольно высока.
Естественно, надо правильно выбрать инструменты для решения всех задач построения хранилища - СУБД (самая критичная часть), средства ETL, CASE-средства, средства OLAP/Reporting, средства управления метаданными и т.д.
В общем, получается не за угол пописать сходить :)

Вот вам и подводные камни. Сорри, что так сумбурно.

По поводу построения хранилищ на платформе MOLAP, мне кажется, можно забыть. Проблема в масштабируемости, поддержке историчности, открытости. Многомерные базы масштабируются гораздо хуже реляционных (может быть, пока, но это факт), язык запросов SQL стандартизован, многомерные базы сами себе на уме. Все уже давно строят хранилища на реляционных БД.

Надеюсь, это поможет.

С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32645091
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To backfire & Константин:

А в чем собственно проблемы?
Стоимость хранения гигабайта падает быстрее чем наполняется хранилище данных :-)


Я как-то обсуждал этот вопрос с представителем компании, в которой объемы данных очень велики (думаю больше чем у компании Walmart и не меньше чем у France Telecom). Все данные лежат в лог-файлах, и никто в единую БД это не сливает - делают базы на платформе Oracle для решения локальных задач. Если закачать все в одно место - то даже процедура бэкапирования и поднятия многотерабайтной базы - это большая проблема. Не будет ли проблем с масштабированием? Не будут ли расти по экспоненте расходы на апгрейдирование сервера? например, нет ли такого, что сервак на котором можно хранить терабайт стоит Х долларов, а в терабайта - Х*5 долларов, а 3 терабайта - Х*25? Каждый новый индекс будет создаваться медленно, запросы делать к такой БД - тоже непросто.
Или может я не прав, и управляться с гигантской базой несложно, и SQL-запросы к ней будут выполняться быстро? Есть ли какие-нибудь расценки на хранение данных в привязке к объему данных, и чтобы при этом у сервера хватало мощности обрабатывать аналитические запросы?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32645173
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Юрий,

естественно, с большими хранилищами данных может справиться не каждая платформа. Я могу сказать за СУБД Teradata. На данный момент самое большое хранилище данных на Терадате работает на системе из порядка 300 узлов - это компания SBC (WalMart имеет второе по размеру хранилище после SBC). На данный момент можно собрать сервер из 512 узлов (узлы - это двух- или четырёхпроцессорные серверы). Масштабироваться ещё есть куда.

Вот краткая характеристика системы SBC:
Хранилище данных поддерживает более 140 приложений, обслуживающее более 10 000 пользователей в более, чем 16 компаниях группы SBC (Southwestern Bell Telephone Company, Pacific Bell, SBC Services, Inc., SBC Management Services, Inc. и др.)
Ежедневно выполняется 100 000 SQL-запросов.

Вот состояние в WalMart на весну 2002 года:
Общее дисковое пространство - свыше 270 ТБ
Более 45 000 пользователей
Более 1 500 одновременно работающих пользователей
Есть таблица, содержащая более, чем 70 миллиардов строк
Всего в хранилище более 5 000 таблиц
Более 100 000 запросов в день
В день грузится более 1,5 миллиарда записей в режиме непрерывной загрузки
Хранилище обслуживает более 40 приложений
Среднее время отклика на запрос менее 3 минут
Обслуживают это хозяйство 3 администратора


Сколько всё это стоит не знаю. Но, думаю, много - система огромная.
Но люди её содержат и развивают (начали давно - раньше 1990 года) - значит
приносит немаленькие деньги.


Надеюсь, сомнения в возможностях масштабирования сняты.


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32645214
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ИМХО самый большой подводный камень - время.

1. Если в ХД заливаются гигабайты данных (в процессе его инициализации), то очень высока стоимость исправления ошибок загрузки, выявленных после инициализации ХД.
После исправления ошибки ETL приходится повторять инициализирующую загрузку, что может занять больше одного дня. Если подобных ошибок несколько, то соответственно вырастает и время их фиксации.
Это - проблема при внедрении, например на этапе ОЭ
(OFF Естественно - при разработке это - не менее актуальная проблема, но обладающая преимуществом: Заказчик не "бьет по башке" из-за недоступности ХД.)

2.Кроме того, в какой-то момент некоторые вспомогательные операции по обслуживанию БД становятся очень продолжительными (backup, reorg etc).

3. Так же становятся очень востребованными агрегирующие таблицы.

В остальном - полность солидарен с Константином. Особенно в части управления проектом :0)

ЗЫ SQL запросы работают быстро при условии, что модель БД спроектирована грамотно.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32646183
DmitryS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Ну, промежуточные таблицы и служебные, может, и стоит хранить отдельно. Одним из неописанных плюсов единого хранилища является большая "лёгкость" поддержания целостности данных, поддержки и сопровождения ETL
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32646670
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
легкость ... поддержки и сопровождения ETL

Насчет легкости в этом вопросе я бы не зарекался.
Приходится тюнить SQL код, который, казалось-бы, не должен представлять никаких проблем.
Однако, при работе с большими массивами данных может существенно затормозить загрузку, или даже просто застопорить.
Можно возразить, что: "SQL код, написанный грамотно и правильно, протестированный не должен представлять никаких проблем".
Отвечу: "Может"
ХД ведь растет. Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код.
Причем при написании и тестировании этот код работал, и не плохо, а вот ХД увеличилось процентов на 5-10% - все, тормоза.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32646731
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
JimmyХД ведь растет. Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код.
Причем при написании и тестировании этот код работал, и не плохо, а вот ХД увеличилось процентов на 5-10% - все, тормоза.

Значит хреново написали, если при приросте всего 20% тормоза начинаются.

Да и для тестирования надо генерить объемы заведомо большие, чем встретятся на практике.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32646915
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код

Значит хреново написали, если при приросте всего 20% тормоза начинаются

Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647162
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jimmy Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код

Значит хреново написали, если при приросте всего 20% тормоза начинаются

Кроме того, если ETL поддерживает несколько сотен таблиц-источников, то нельзя гарантировать, что для всех таблиц будет написан оптимальный код

Какая разница, то ли их 10, то ли их 510.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647406
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Какая разница, то ли их 10, то ли их 510.

Очень большая, смею заверить.

Код загрузки для 10-ти таблиц может написать один человек в достаточно короткий срок. При этом весьма качественно.

Когда их, таблиц, 500, то процессы пишут несколько человек, что дает прирост производительности (нелинейный!) и усложняет управление процессом реализации (почти линейно!).
Т.е. налицо очень большие риски рассогласования кода и, соответственно, ошибок, как логических, так и синтаксических.

ЗЫ А вообще странно слышать от человека, занятого в IT индустрии, такие слова, т.к. принцип "Чем больше кода, тем больше ошибок" - это аксиома для разработчика ПО, не требующая доказательств.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647453
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
1. Если в ХД заливаются гигабайты данных (в процессе его инициализации), то очень высока стоимость исправления ошибок загрузки, выявленных после инициализации ХД.
После исправления ошибки ETL приходится повторять инициализирующую загрузку, что может занять больше одного дня. Если подобных ошибок несколько, то соответственно вырастает и время их фиксации.


Интересно, если заливка гигабайтов может занять больше одного дня, сколько же времени займет загрузка терабайтов...
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647471
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2 Jurii
Еще не пробовал ;0)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647495
DmitryS
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Юр, так железяки тоже другие для терабайтов:-) А вообще, смотреть надо по обстоятельставм. Не всегда надо делать инициализационную загрузку. Возможно, где-то надо восстанавливать бэкапы - не фулл, конечно. Но вообще, если у Вас такие объёмы, то разработка ETL должна быть максимально надёжной. Т.е., скажем, DTS с его порой проявляющимися недетерминированными глюками - не лучший вариант. Бюджеты проектов другие уже. Тут скорее, целесообразнее говорить об Ascential, Informatica, например. Железо должно быть в полном порядке. Не то, чтобы супермощное, но хотя бы не служащее причиной ошибок. Короче, тонкостей много:-) Кстати, по нашим оценкам объём трудозатрат при разработке ETL c использованием DataStage примерно в 2 с небольшим раза меньше, чем при реализации той же функциональности на DTS и "коленочной рукописью". Вот и считайте, каков должен быть проект, чтобы это окупилось. Учтите стоимость специалистов.
Остапа понесло...:-)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647573
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
С моей точки зрения цетральная проблема в больших DWH это правильное ПРОЕКТИРОВАНИЕ. Большие DWH жестоко мстят даже за небольшие ошибки в проектировании т.к. при изменении структуры DWH вам нужно часто перекачать данные в новую структуру, а это может занять несколько дней только на одну итерацию. Другая типовая проблема проблема это потеря исходных данных, т.к. хралище сделали для хранения только сурогатов для расчетов а сами данные потеряли. Глюки в DWH нужно убирать сразу, т.к. поставить заплатку на рабочий DWH очень тяжело (итерация трансформации данных долгая). Еще одна проблема это то что для больших DWH характеры тяжелые SQL-запросы при заполнии кубов или при промежуточных расчетах. Тут нужно владеть всеми тонкостями SQL-сервера который выбран для DWH.
Будь это MS SQL, Oracle или Tera Data специалист отвечающий за проектирование DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах. Наличие такого специалиста и определяет платформу, т.к. такие профи единичны на рынке.
Поэтому если бы у меня работал Константин я бы выбирал Терадату, если Биркофф - Oracle, если бы делал сам - MS SQL.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32647635
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Владимир ИвановС моей точки зрения цетральная проблема в больших DWH это правильное ПРОЕКТИРОВАНИЕ. Большие DWH жестоко мстят даже за небольшие ошибки в проектировании т.к. при изменении структуры DWH вам нужно часто перекачать данные в новую структуру, а это может занять несколько дней только на одну итерацию. Другая типовая проблема проблема это потеря исходных данных, т.к. хралище сделали для хранения только сурогатов для расчетов а сами данные потеряли. Глюки в DWH нужно убирать сразу, т.к. поставить заплатку на рабочий DWH очень тяжело (итерация трансформации данных долгая). Еще одна проблема это то что для больших DWH характеры тяжелые SQL-запросы при заполнии кубов или при промежуточных расчетах. Тут нужно владеть всеми тонкостями SQL-сервера который выбран для DWH.
Будь это MS SQL, Oracle или Tera Data специалист отвечающий за проектирование DWH должен иметь более 7 лет опыта работы с данной системой на разных хранилищах. Наличие такого специалиста и определяет платформу, т.к. такие профи единичны на рынке.
Поэтому если бы у меня работал Константин я бы выбирал Терадату, если Биркофф - Oracle, если бы делал сам - MS SQL.

Один из немногих случаев, когда я с Вами полностью согласен :-)
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648040
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
To DmitryS:

Юр, так железяки тоже другие для терабайтов:-)

А какие у этих железяк скорости копирования данных? Гигабайты в секунду, или все же помедленнее?

Если почитать постинги этой дискуссии, то становится понятно, почему считается, что хранилища внедряются годами и стоят очень дорого.
Интересно, есть ли статистика, в скольки процентах случаев проекты по созданию хранилищ были провальными?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648217
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Jurii
Интересно, есть ли статистика, в скольки процентах случаев проекты по созданию хранилищ были провальными?

ja slyshal o 60%. Proval izza technicheskih trudnostei libo izza plohoi modeli DWH/postanovki zadaci. God nazad. Kakajata analiticeskaja kontora. Ssylki ne pomniu.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648887
Фотография Jimmy
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
60% - похоже на правду
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648940
Владимир Иванов
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
2/3 проваленных IT-проектов это для общей массы (статистика Standish Group).
По моим наблюдениям BI-проекты существенно успешнее IT-проектов других типов. Даже для сложного решения можно выйти на весьма приличный протип за 1 месяц. Весьма приличный - это значит что многие пользователи могут его воспринимать как конечный продукт и даже эксплуатировать.
Сложное решение для нефтянки может внедряться 8 месяцев и в основном проблемы будут организационные.
Мои выводы такие. Если вам нужно получить систему для принятия решений, BI-решение как правило дешевле и что важнее менее рискованно чем другие варианты в том числе на без спец. модулей в ERP-системах. Как минимум для SAP это точно так.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32648988
_Dog
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
po moim nabliudenijam - 50/50. Cem krupnee zakazcik, cem bolse direktorov, otdelov, istocnikov dannyh - tem risk provala vyse.

Risk snizaetsia procentov na 80-90 pri ispolzovanii gotovyh modelei dannyh tipa Terradata logical model, Sybase IWS, Oracle/IBM EDW model.
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32649744
Jurii
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Risk snizaetsia procentov na 80-90 pri ispolzovanii gotovyh modelei dannyh tipa Terradata logical model, Sybase IWS, Oracle/IBM EDW model.

А есть ли у кого-нибудь опыт создания хранилищ на основе готовых решений, готовых моделей данных (см. выше)? Так ли легко это внедрять? Есть ли риск, что при отсутствии нормальных источников данных (учетной системы) не удастся наполнить такие хранилища данными? И приходится ли реально перепроектировать эти готовые модели, если например бизнес-процессы под них не хочется менять?
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32649757
Владимир Штепа
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А есть ли у кого-нибудь опыт создания хранилищ на основе готовых решений, готовых моделей данных (см. выше)?


Шаблоны готовых решений издложены классиками DWH

Так ли легко это внедрять? Есть ли риск, что при отсутствии нормальных источников данных (учетной системы) не удастся наполнить такие хранилища данными?

"Нормальные" источники как правило встречаются в теории а на практике все гораздо мрачнее. На то и ETL, чтобы из возможного получить максимум желаемого.

И приходится ли реально перепроектировать эти готовые модели, если например бизнес-процессы под них не хочется менять?

На практике я еще ни разу не встречался, чтобы бизнес процессы в ERP/OLTP менялись. Как правило подстраивается ETL, DWH в меньшей мере.

А вообще, это тянет на некороткий разговор под пару ящиков пива. :-).
...
Рейтинг: 0 / 0
Какие подводные камни бывают у больших DWH?
    #32649985
Bear_
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
backfireШаблоны готовых решений издложены классиками DWH
не встречались ли Вам структуры для содания систем бюджетирования с возможностью версионности бюджетов, зависимостей между ними и анализа "что-если"?
если да, то где? можно ли получить доступ к этой информации?

предвосхищая Yurii - Enterprise Planning уже изучается, интересуют именно модели схем данных под задачу качественного бюджетирования
...
Рейтинг: 0 / 0
25 сообщений из 49, страница 1 из 2
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Какие подводные камни бывают у больших DWH?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]