Проект построения большой БД - давайте пообсуждаем / Сравнение СУБД

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Сравнение СУБД [игнор отключен] [закрыт для гостей] / Проект построения большой БД - давайте пообсуждаем

7 сообщений из 307, страница 13 из 13

все

Проект построения большой БД - давайте пообсуждаем

#32670967

Сергей Тихонов

Участник

Откуда: Киев

Сообщения: 710

Рейтинг: 0 / 0

Павел НовокшоновВсе книги можно заказать на амазоне
Вы бы хоть ссылки привели для приличия, название сайта и так все знают... Или это суть support`а от TD - www.amazon.com?

ЗЫ
Еще раз - ИМХО, серьезно о Терадате можно будет говорить только тогда, когда ее поддержка и развитие будет сравнима с поддержкой Oracle и MS...

...

Рейтинг:

0 / 0

30.08.2004, 12:40

| Ответить | Цитировать | Написать

Проект построения большой БД - давайте пообсуждаем

#32671740

onstat-

Участник

Сообщения: 8 199

Рейтинг: 0 / 0

Павел Новокшонов Константин Лисянский
2 Павел Новокшонов:

Павел, а сколько у вас администраторов Терадаты на 1 ТБ?

2 DBA на ХД из ~1TB. В отделе 4 DBA плюс манагер. Помимо Терадаты мы администрим ряд OLTP систем на DB2 (EE) и Информиксе. Так что есть с чем сравнивать.

У нас чистых ДБА нет по штату, ДБА & SysAdmin(Сетевики Отдельно) это нагрузка к администратору приложения.

onstat-
Противоречие получается, мы как-то уже начинали разговор
о партиционировании и я говорил что отсоединяю 20 000 000 от
100 000 000 таблицы за 10 -20 минут, помните?

Павел Новокшонов
А зачем в хранилище данных вообще отсоединять 20 000 000 записей от 100 миллионной таблицы? Какой смысл? Смысл партицирования в Терадате один - это равномерно размазать данные во узлам кластера и по виртуальным процессорам СУБД внутри узлов. Тем самым система максимально сбалансирована и позволяет максимально быстро выполнять DSS запросы.

Реальная ситуация из жизни.
Имеем базу данных в день туда втягивается приблизительно
1 000 000 транзакций (добавление данных в 5 таблиц).
Время актуальности данных ~пол года. Данные старше полугодичной
давности в расчетах не участвуют.
Как максимально быстро от них избавиться и не мешать удалением
старых записей работе системы?
Складывается впечетление что этот вопрос вас никогда не интересовал.
Или у вас абсолютно статичные данные(читай справочники), но я не могу себе
даже представить какой либо современный бизнес с абсолютно статичными
данными обьемом больше ТераБайта.

Павел Новокшонов
Здесь важно понимать архитектуру самой СУБД. В Терадате существует всего два типа виртуальных процессоров, в отличие от Информикса к примеру где их до тучи. Один тип PE (Parsing Engine) отвечает за обработку пользовательских сессий, парсинг SQL и генерацию плана запроса. Другой тип виртуальных процессоров, называемый AMP отвечает за храниние и обработку данных. При начальной конфигурации системы каждому AMP'y жестко нарезается одинаковый кусок дискового пространства. Когда я заливаю таблицу скажем из одного миллиарда строк все что делает хэш это берет значение колонки, объявленной
как первичный индекс, прогоняет через хэш-алгоритм и определяет AMP на который пойдет запись. Таким образом если значения первичного индекса достаточно уникальны, то таблица будет равномерно размазана по вирт. процам СУБД.

Кстате как быть с идесным поиском по не первичному ключу?
Каким образом производится выбор узла хазаяина по индексу
(не первичному)?

Меня не нужно убеждать в том, что добавление записей по хешу
лучше лубого другого принципа деления для распаралеливания.
У меня есть свое мнение по этому поводу, составленное на практическом опыте эксплуатации базы данных обьемом 500 Gb.
Другие базы данных предоставляют альтернативные инструменты деления
данных. Для ТераДаты я о их достоиствах практически нечего не слышал.

Павел Новокшонов

Да еще про защиту инвестиций на уровне железа. По началу Терадата у нас жила на 4-х узлах, сейчас в системе 14 узлов с тремя генерациями CPU. 2 узла с 8 CPU (700 МГц), 4 узла с 8 CPU (2.8 ГГц) и 8 узлов с 32 CPU (3 ГГц). Т.е. межнодовая шина Bynet позволяет цеплять в кластер узлы с разными CPU, но с точки зрения СУБД это по прежнему одна система. Это удобно когда ХД строится на одной системе и по мере прогресса технологий и роста объема данных старое железо может со-существовать с новым. Опять же один вендор разрабатывает
и железо и СУБД и ОС.

Как с этим в Оракле и ДБ2?

По поводу oracle не скажу, не знаю.
А вот Informix XPS абсолютно всеравно какие сервера установлены по мощности, и если я не ошибаюсь даже на каких OS&Hardware они работают. Важно чтобы версия инстансов XPS были одинаковы.

А вы как нагрузку делите между узлами разной производительности?

С уважением onstat-

...

Рейтинг:

0 / 0

30.08.2004, 16:40

| Ответить | Цитировать | Написать

Проект построения большой БД - давайте пообсуждаем

#32672392

Павел Новокшонов

Участник

Откуда: Moscow -> Atlanta, GA

Сообщения: 87

Рейтинг: 0 / 0

Сергей Тихонов Вы бы хоть ссылки привели для приличия, название сайта и так все знают... Или это суть support`а от TD - www.amazon.com?

Сергей, в настоящее время я не являюсь сотрудником компании NCR, а работаю в казино и поэтому саппорт по СУБД Терадата не оказываю, а скорее его потребляю как клиент, тобишь лицо не заинтересованное. Мой пойнт был в том, что на амазоне введя ключевое слово Teradata вам вывалится с десяток наименованний по сабжу.

Про поддержку - в Мемфисе нет локального офиса NCR как в прочем и ИБМ специализирующихся на базах данных. Есть пара людей от вендера отвечающих за саппорт железа, установку апдейтов, патчей и т.п. Технически можно делать и самому, но как правило это входит в контракт на maintenance. Вся поддержка идет из Сан Диего. Если что-то серьезное то спецы дозваниваются и смотрят систему удаленно. Это в прочем относится и к ДБ2 с Информиксом. В Киеве наверняка есть отделение NCR. Занимаются ли там Терадатой - не знаю. Это скорее вопрос к Константину. Объем Терадаты (не NCR в целом) порядка $1,2 млрд в год - это серьезный бизнес.

...

Рейтинг:

0 / 0

31.08.2004, 06:28

| Ответить | Цитировать | Написать

Проект построения большой БД - давайте пообсуждаем

#32672394

Павел Новокшонов

Участник

Откуда: Moscow -> Atlanta, GA

Сообщения: 87

Рейтинг: 0 / 0

onstat- Складывается впечетление что этот вопрос вас никогда не интересовал. Или у вас абсолютно статичные данные(читай справочники), но я не могу себе даже представить какой либо современный бизнес с абсолютно статичными данными обьемом больше ТераБайта.

Интересовал. Если я удалю старые записи в хранилище меня выгонят с работы. Пользователи анализируют информацию и за 6 месяцев, и за 2 года и за пять лет. Причем данные пополняются каждодневно. В этом суть хранилища данных, информация по деятельности компании накапливается на детальном уровне, после этого можно выгружать данные в многомерные кубы, агрегировать (или не агрегировать), строить зависимые дата марты, делать data mining, проводить маркетинговые кампании, делать CRM, одним словом - you name it.

onstat- Кстате как быть с идесным поиском по не первичному ключу?
Каким образом производится выбор узла хазаяина по индексу
(не первичному)?

Используются вторичные индексы (как уникальные, так и не уникальные). Для вторичного индекса СУБД строится под-таблица, которая хэшируется между AMP'ми по значению колонки вторичного индекса. Единицей параллелизма в Терадате является скорее не узел, а вирт. процессор СУБД, называемый AMP. Если в условиях выборки указывается вторичный индекс, то если он уникальный, то будет задействоано только 2 AMP'a, если нет, то работать будут все AMP'ы системы. Возможно оптимизатор сочтет, что полное сканирование таблицы
будет работать быстрее чем выборка по индексу. Это зависит от селективности индекса, свежести статистики, насколько наворочен запрос и т.д. Есть т.н. join индексы, материализующие часто объединяемые таблицы для тех или иных запросов.

onstat-У меня есть свое мнение по этому поводу, составленное на практическом опыте эксплуатации базы данных обьемом 500 Gb.

OLTP система на 500ГБ и ХД (читай информационно-аналитическая система) совершенно разные вещи по сути.

...

Рейтинг:

0 / 0

31.08.2004, 06:35

| Ответить | Цитировать | Написать

Проект построения большой БД - давайте пообсуждаем

#32672395

Павел Новокшонов

Участник

Откуда: Moscow -> Atlanta, GA

Сообщения: 87

Рейтинг: 0 / 0

onstat- А вы как нагрузку делите между узлами разной производительности?

На более шустрых узлах живет больше АМР'ов. Не намного правда. Поскольку данные равномерно размазаны между AMP'ми, то более быстрым узлам приходится ворочать больше данных. Узел (4 х 3ГГц) - 14 AMP'ов vs. узел (4 х 700МГц) - 10 АМР'ов.

onstat- Важно чтобы версия инстансов XPS были одинаковы.

Informix XPS вроде как параллельная версия Информикса. Но только вот администрить n-инстансов информикса в кластере из n-узлов. Много вопросов - партишонинг, нужно ли спэйс добавлять по dbspace'ам, бэкап/рековэри по узлам делать или как, один onconfig файл править или много, опять же dbspace'ы, tblspace'ы, надо индексы перестраивать или нет, а можно ли в онлайне, GUI у Информикса мало, а у ДБ2 родные GUI просто сосут (в 8-й версии еще куда ни шло). Сугобо ИМХО конечно.

...

Рейтинг:

0 / 0

31.08.2004, 06:40

| Ответить | Цитировать | Написать

Проект построения большой БД - давайте пообсуждаем

#32672884

onstat-

Участник

Сообщения: 8 199

Рейтинг: 0 / 0

Павел Новокшонов
Интересовал. Если я удалю старые записи в хранилище меня выгонят с работы. Пользователи анализируют информацию и за 6 месяцев, и за 2 года и за пять лет. Причем данные пополняются каждодневно. В этом суть хранилища данных, информация по деятельности компании накапливается на детальном уровне, после этого можно выгружать данные в многомерные кубы, агрегировать (или не агрегировать), строить зависимые дата марты, делать data mining, проводить маркетинговые кампании, делать CRM, одним словом - you name it.

Бизнес безнесу рознь. И чистых OLTP или DSS систем наверное не существует.
Для моего бизнеса хранить милиарды записей за предидущие годы гораздо дороже. Мы пользуемся уже готовыми
срезами кубов по определенным критериям за предидущие периоды.
Вероятность необходимости получения детализации по операции 5 летней давности очень низка, а стоемость ее храниния в хранилище соезмерима со стоемостью последней записи.
В какую сумму вашей организации обходится хранение детализаций
по операциям 3 -5 летней давности. А какую маркетинговую ценность
представляют детали этих операций?

Конечно переоценив ситуацию можно срузу же лишиться пары терабайт базы
и хвастаться уже будет нечем.
Зато будет ощутима материальная составляющая.

У любых данных есть период их актуальности. По его окончанию данные маркетинговой ценности не представляют. Ценность представляют лишь статистические срезы кубов.
А архивы операций можно хранить на более медленных и дешевых
устройствах например на лентах или DVD матрицах. На то они и архивы.

Павел Новокшонов
onstat- А вы как нагрузку делите между узлами разной производительности?

На более шустрых узлах живет больше АМР'ов. Не намного правда. Поскольку данные равномерно размазаны между AMP'ми, то более быстрым узлам приходится ворочать больше данных. Узел (4 х 3ГГц) - 14 AMP'ов vs. узел (4 х 700МГц) - 10 АМР'ов.

onstat- Важно чтобы версия инстансов XPS были одинаковы.

Informix XPS вроде как параллельная версия Информикса. Но только вот администрить n-инстансов информикса в кластере из n-узлов. Много вопросов - партишонинг,

Не вижу никаких проблем с фрагментацией в informix. У меня есть таблицы
фрагментированные по 20 дбсейсам есть процедура их отключения
и повторного использования. При правильной организации работы с этим может справиться дежурный персонал со средним образованием.
Это обычные регламентные работы типа как помыть пол и вытереть пыль в серверной.

Павел Новокшонов

нужно ли спэйс добавлять по dbspace'ам, бэкап/рековэри по узлам делать или как, один onconfig файл править или много, опять же dbspace'ы, tblspace'ы, надо индексы перестраивать или нет, а можно ли в онлайне, GUI у Информикса мало, а у ДБ2 родные GUI просто сосут (в 8-й версии еще куда ни шло). Сугобо ИМХО конечно.

Я храню данные в сырых устройствах.
И пространство к базе подключать нужно, я не виже в этом недостатка.
Индексы перестраивать не нужно, Gui действительно маловато, сказывается былой маркетинговый просчет informix.
Для меня гораздо важнее наличие дополнительного функционала
по управлению данными, нежели ГУЙ.
По поводу конфигов тут вы правы на каждом сервере свой,но меняются они очень редко. Мы же эксплуатируем систему и эксперементы нам ни к чему.

Коль начали меряться перцами , то давайте еще обсудим такую
немаловажную тему как таблицы исключений(violations tables)
и насколько они повышают юзабельность хранилища данных и приложения.

С уважением,
onstat-

...

Рейтинг:

0 / 0

31.08.2004, 11:49

| Ответить | Цитировать | Написать

Проект построения большой БД - давайте пообсуждаем

#32947722

kmike

Участник

Сообщения: 254

Рейтинг: 0 / 0

Yo!т.е. вы сертифицированый oracle DBA ? ;)

если я правильно понял вы пытаетеcь убедить что откат транзакций упавшей оракловой ноды сопастовим с полного востановлением инстанса ноды дб2 ? оракловый RAC переживет потерб бойца, а shared-nothing обязан востановить ноду.
Дааа? А транзакции, выполнявшиеся этим нодом, никто откатывать не обязан?

А вот для отката как раз и потребуется определение, умер узел или нет.

...

Рейтинг:

0 / 0

05.03.2005, 09:47

| Ответить | Цитировать | Написать

7 сообщений из 307, страница 13 из 13

все

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=35&msg=32947722&tid=1553923]:	0ms
get settings:	9ms
get forum list:	20ms
check forum access:	4ms
check topic access:	4ms
track hit:	192ms
get topic data:	12ms
get forum data:	3ms
get page messages:	65ms
get tp. blocked users:	2ms
others:	232ms

total:	543ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы