Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Проект построения большой БД - давайте пообсуждаем
|
|||
|---|---|---|---|
|
#18+
Павел НовокшоновВсе книги можно заказать на амазоне Вы бы хоть ссылки привели для приличия, название сайта и так все знают... Или это суть support`а от TD - www.amazon.com? ЗЫ Еще раз - ИМХО, серьезно о Терадате можно будет говорить только тогда, когда ее поддержка и развитие будет сравнима с поддержкой Oracle и MS... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2004, 12:40 |
|
||
|
Проект построения большой БД - давайте пообсуждаем
|
|||
|---|---|---|---|
|
#18+
Павел Новокшонов Константин Лисянский 2 Павел Новокшонов: Павел, а сколько у вас администраторов Терадаты на 1 ТБ? 2 DBA на ХД из ~1TB. В отделе 4 DBA плюс манагер. Помимо Терадаты мы администрим ряд OLTP систем на DB2 (EE) и Информиксе. Так что есть с чем сравнивать. У нас чистых ДБА нет по штату, ДБА & SysAdmin(Сетевики Отдельно) это нагрузка к администратору приложения. onstat- Противоречие получается, мы как-то уже начинали разговор о партиционировании и я говорил что отсоединяю 20 000 000 от 100 000 000 таблицы за 10 -20 минут, помните? Павел Новокшонов А зачем в хранилище данных вообще отсоединять 20 000 000 записей от 100 миллионной таблицы? Какой смысл? Смысл партицирования в Терадате один - это равномерно размазать данные во узлам кластера и по виртуальным процессорам СУБД внутри узлов. Тем самым система максимально сбалансирована и позволяет максимально быстро выполнять DSS запросы. Реальная ситуация из жизни. Имеем базу данных в день туда втягивается приблизительно 1 000 000 транзакций (добавление данных в 5 таблиц). Время актуальности данных ~пол года. Данные старше полугодичной давности в расчетах не участвуют. Как максимально быстро от них избавиться и не мешать удалением старых записей работе системы? Складывается впечетление что этот вопрос вас никогда не интересовал. Или у вас абсолютно статичные данные(читай справочники), но я не могу себе даже представить какой либо современный бизнес с абсолютно статичными данными обьемом больше ТераБайта. Павел Новокшонов Здесь важно понимать архитектуру самой СУБД. В Терадате существует всего два типа виртуальных процессоров, в отличие от Информикса к примеру где их до тучи. Один тип PE (Parsing Engine) отвечает за обработку пользовательских сессий, парсинг SQL и генерацию плана запроса. Другой тип виртуальных процессоров, называемый AMP отвечает за храниние и обработку данных. При начальной конфигурации системы каждому AMP'y жестко нарезается одинаковый кусок дискового пространства. Когда я заливаю таблицу скажем из одного миллиарда строк все что делает хэш это берет значение колонки, объявленной как первичный индекс, прогоняет через хэш-алгоритм и определяет AMP на который пойдет запись. Таким образом если значения первичного индекса достаточно уникальны, то таблица будет равномерно размазана по вирт. процам СУБД. Кстате как быть с идесным поиском по не первичному ключу? Каким образом производится выбор узла хазаяина по индексу (не первичному)? Меня не нужно убеждать в том, что добавление записей по хешу лучше лубого другого принципа деления для распаралеливания. У меня есть свое мнение по этому поводу, составленное на практическом опыте эксплуатации базы данных обьемом 500 Gb. Другие базы данных предоставляют альтернативные инструменты деления данных. Для ТераДаты я о их достоиствах практически нечего не слышал. Павел Новокшонов Да еще про защиту инвестиций на уровне железа. По началу Терадата у нас жила на 4-х узлах, сейчас в системе 14 узлов с тремя генерациями CPU. 2 узла с 8 CPU (700 МГц), 4 узла с 8 CPU (2.8 ГГц) и 8 узлов с 32 CPU (3 ГГц). Т.е. межнодовая шина Bynet позволяет цеплять в кластер узлы с разными CPU, но с точки зрения СУБД это по прежнему одна система. Это удобно когда ХД строится на одной системе и по мере прогресса технологий и роста объема данных старое железо может со-существовать с новым. Опять же один вендор разрабатывает и железо и СУБД и ОС. Как с этим в Оракле и ДБ2? По поводу oracle не скажу, не знаю. А вот Informix XPS абсолютно всеравно какие сервера установлены по мощности, и если я не ошибаюсь даже на каких OS&Hardware они работают. Важно чтобы версия инстансов XPS были одинаковы. А вы как нагрузку делите между узлами разной производительности? С уважением onstat- ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 30.08.2004, 16:40 |
|
||
|
Проект построения большой БД - давайте пообсуждаем
|
|||
|---|---|---|---|
|
#18+
Сергей Тихонов Вы бы хоть ссылки привели для приличия, название сайта и так все знают... Или это суть support`а от TD - www.amazon.com? Сергей, в настоящее время я не являюсь сотрудником компании NCR, а работаю в казино и поэтому саппорт по СУБД Терадата не оказываю, а скорее его потребляю как клиент, тобишь лицо не заинтересованное. Мой пойнт был в том, что на амазоне введя ключевое слово Teradata вам вывалится с десяток наименованний по сабжу. Про поддержку - в Мемфисе нет локального офиса NCR как в прочем и ИБМ специализирующихся на базах данных. Есть пара людей от вендера отвечающих за саппорт железа, установку апдейтов, патчей и т.п. Технически можно делать и самому, но как правило это входит в контракт на maintenance. Вся поддержка идет из Сан Диего. Если что-то серьезное то спецы дозваниваются и смотрят систему удаленно. Это в прочем относится и к ДБ2 с Информиксом. В Киеве наверняка есть отделение NCR. Занимаются ли там Терадатой - не знаю. Это скорее вопрос к Константину. Объем Терадаты (не NCR в целом) порядка $1,2 млрд в год - это серьезный бизнес. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.08.2004, 06:28 |
|
||
|
Проект построения большой БД - давайте пообсуждаем
|
|||
|---|---|---|---|
|
#18+
onstat- Складывается впечетление что этот вопрос вас никогда не интересовал. Или у вас абсолютно статичные данные(читай справочники), но я не могу себе даже представить какой либо современный бизнес с абсолютно статичными данными обьемом больше ТераБайта. Интересовал. Если я удалю старые записи в хранилище меня выгонят с работы. Пользователи анализируют информацию и за 6 месяцев, и за 2 года и за пять лет. Причем данные пополняются каждодневно. В этом суть хранилища данных, информация по деятельности компании накапливается на детальном уровне, после этого можно выгружать данные в многомерные кубы, агрегировать (или не агрегировать), строить зависимые дата марты, делать data mining, проводить маркетинговые кампании, делать CRM, одним словом - you name it. onstat- Кстате как быть с идесным поиском по не первичному ключу? Каким образом производится выбор узла хазаяина по индексу (не первичному)? Используются вторичные индексы (как уникальные, так и не уникальные). Для вторичного индекса СУБД строится под-таблица, которая хэшируется между AMP'ми по значению колонки вторичного индекса. Единицей параллелизма в Терадате является скорее не узел, а вирт. процессор СУБД, называемый AMP. Если в условиях выборки указывается вторичный индекс, то если он уникальный, то будет задействоано только 2 AMP'a, если нет, то работать будут все AMP'ы системы. Возможно оптимизатор сочтет, что полное сканирование таблицы будет работать быстрее чем выборка по индексу. Это зависит от селективности индекса, свежести статистики, насколько наворочен запрос и т.д. Есть т.н. join индексы, материализующие часто объединяемые таблицы для тех или иных запросов. onstat-У меня есть свое мнение по этому поводу, составленное на практическом опыте эксплуатации базы данных обьемом 500 Gb. OLTP система на 500ГБ и ХД (читай информационно-аналитическая система) совершенно разные вещи по сути. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.08.2004, 06:35 |
|
||
|
Проект построения большой БД - давайте пообсуждаем
|
|||
|---|---|---|---|
|
#18+
onstat- А вы как нагрузку делите между узлами разной производительности? На более шустрых узлах живет больше АМР'ов. Не намного правда. Поскольку данные равномерно размазаны между AMP'ми, то более быстрым узлам приходится ворочать больше данных. Узел (4 х 3ГГц) - 14 AMP'ов vs. узел (4 х 700МГц) - 10 АМР'ов. onstat- Важно чтобы версия инстансов XPS были одинаковы. Informix XPS вроде как параллельная версия Информикса. Но только вот администрить n-инстансов информикса в кластере из n-узлов. Много вопросов - партишонинг, нужно ли спэйс добавлять по dbspace'ам, бэкап/рековэри по узлам делать или как, один onconfig файл править или много, опять же dbspace'ы, tblspace'ы, надо индексы перестраивать или нет, а можно ли в онлайне, GUI у Информикса мало, а у ДБ2 родные GUI просто сосут (в 8-й версии еще куда ни шло). Сугобо ИМХО конечно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.08.2004, 06:40 |
|
||
|
Проект построения большой БД - давайте пообсуждаем
|
|||
|---|---|---|---|
|
#18+
Павел Новокшонов Интересовал. Если я удалю старые записи в хранилище меня выгонят с работы. Пользователи анализируют информацию и за 6 месяцев, и за 2 года и за пять лет. Причем данные пополняются каждодневно. В этом суть хранилища данных, информация по деятельности компании накапливается на детальном уровне, после этого можно выгружать данные в многомерные кубы, агрегировать (или не агрегировать), строить зависимые дата марты, делать data mining, проводить маркетинговые кампании, делать CRM, одним словом - you name it. Бизнес безнесу рознь. И чистых OLTP или DSS систем наверное не существует. Для моего бизнеса хранить милиарды записей за предидущие годы гораздо дороже. Мы пользуемся уже готовыми срезами кубов по определенным критериям за предидущие периоды. Вероятность необходимости получения детализации по операции 5 летней давности очень низка, а стоемость ее храниния в хранилище соезмерима со стоемостью последней записи. В какую сумму вашей организации обходится хранение детализаций по операциям 3 -5 летней давности. А какую маркетинговую ценность представляют детали этих операций? Конечно переоценив ситуацию можно срузу же лишиться пары терабайт базы и хвастаться уже будет нечем. Зато будет ощутима материальная составляющая. У любых данных есть период их актуальности. По его окончанию данные маркетинговой ценности не представляют. Ценность представляют лишь статистические срезы кубов. А архивы операций можно хранить на более медленных и дешевых устройствах например на лентах или DVD матрицах. На то они и архивы. Павел Новокшонов onstat- А вы как нагрузку делите между узлами разной производительности? На более шустрых узлах живет больше АМР'ов. Не намного правда. Поскольку данные равномерно размазаны между AMP'ми, то более быстрым узлам приходится ворочать больше данных. Узел (4 х 3ГГц) - 14 AMP'ов vs. узел (4 х 700МГц) - 10 АМР'ов. onstat- Важно чтобы версия инстансов XPS были одинаковы. Informix XPS вроде как параллельная версия Информикса. Но только вот администрить n-инстансов информикса в кластере из n-узлов. Много вопросов - партишонинг, Не вижу никаких проблем с фрагментацией в informix. У меня есть таблицы фрагментированные по 20 дбсейсам есть процедура их отключения и повторного использования. При правильной организации работы с этим может справиться дежурный персонал со средним образованием. Это обычные регламентные работы типа как помыть пол и вытереть пыль в серверной. Павел Новокшонов нужно ли спэйс добавлять по dbspace'ам, бэкап/рековэри по узлам делать или как, один onconfig файл править или много, опять же dbspace'ы, tblspace'ы, надо индексы перестраивать или нет, а можно ли в онлайне, GUI у Информикса мало, а у ДБ2 родные GUI просто сосут (в 8-й версии еще куда ни шло). Сугобо ИМХО конечно. Я храню данные в сырых устройствах. И пространство к базе подключать нужно, я не виже в этом недостатка. Индексы перестраивать не нужно, Gui действительно маловато, сказывается былой маркетинговый просчет informix. Для меня гораздо важнее наличие дополнительного функционала по управлению данными, нежели ГУЙ. По поводу конфигов тут вы правы на каждом сервере свой,но меняются они очень редко. Мы же эксплуатируем систему и эксперементы нам ни к чему. Коль начали меряться перцами , то давайте еще обсудим такую немаловажную тему как таблицы исключений(violations tables) и насколько они повышают юзабельность хранилища данных и приложения. С уважением, onstat- ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 31.08.2004, 11:49 |
|
||
|
Проект построения большой БД - давайте пообсуждаем
|
|||
|---|---|---|---|
|
#18+
Yo!т.е. вы сертифицированый oracle DBA ? ;) если я правильно понял вы пытаетеcь убедить что откат транзакций упавшей оракловой ноды сопастовим с полного востановлением инстанса ноды дб2 ? оракловый RAC переживет потерб бойца, а shared-nothing обязан востановить ноду. Дааа? А транзакции, выполнявшиеся этим нодом, никто откатывать не обязан? А вот для отката как раз и потребуется определение, умер узел или нет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2005, 09:47 |
|
||
|
|

start [/forum/topic.php?fid=35&msg=32947722&tid=1553923]: |
0ms |
get settings: |
6ms |
get forum list: |
18ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
45ms |
get topic data: |
8ms |
get forum data: |
3ms |
get page messages: |
42ms |
get tp. blocked users: |
1ms |
| others: | 206ms |
| total: | 335ms |

| 0 / 0 |
