Что за зверь такой Teradata / OLAP и DWH

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Что за зверь такой Teradata

25 сообщений из 153, страница 3 из 7

все

Что за зверь такой Teradata

#32920763

Birkhoff

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Был потрясен обилием ответов :)

Константин ЛисянскийНо, на самом деле, межузловой трафик - это тоже не страшно. Он есть постоянно, поскольку джойны очень часто требуют перераспределения данных между узлами. На это существует коммутатор с очень приличной пропускной способностью.Отсюда вопрос. А какое железо нужно Терадате? Могу ли я построить эту систему из кучи старых писюков с Pentium 1 на борту и ОС Windows? (утрирую) Либо нужно обязательно покупать сервера специальной архитектуры и специальные коммутаторы?

Константин Лисянский BirkhoffИ кто подает сигнал, что все таблицы обновились, можно снимать блокировку?Lock Manager А где он находится? На сервере с PE? Или еще где то?

Константин Лисянский BirkhoffНу когда таблица создается ведь указывается какой тип партишининга и по какому полю. Соответственно каждая партиция фактически представляет из себя отдельную таблицу (к которой даже можно принудительно обратиться), а оптимизатор просто вычисляет в каких их этих таблиц лежат наши данные.Интересно, а если часть таблиц с партициями, а часть - без. Как при этом джойны выполняются?
А если у разных таблиц разный партишионинг? А какая разница? Партишионинг просто задает количество таблиц и распределение данных по ним. Оптимизатор переписывает запрос таким образом, что обеспечивает доступ ко всем нужным партициям. Тип партиций и вообще их наличие и в каких таблицах роли не играет. Это влияет только на структуру перписанного запроса.

Константин Лисянский BirkhoffЭтим всем в основном администратор управляет. Автоматом мало что делается. Но честно говоря не вижу тут большой проблемы.Ну, если речь идёт о сотняз или тысячах объектов, за каждым из которых нужно следить, то желательно поменьше действий в расчёте на один объект выполнять. В противном случае администрирование в кошмар превращается.

И если речь идёт о терабайтных системах, то лишний раз данные перезагружать - тысячу раз подумаешь.А зачем их перезагружать? Разбиение таблиц по партициям это архитектурное решение, когда строится система, тогда и принимается решение как партиционировать таблицы. Потом можно, например, если у нас данные лежат по годам, добавить еще одну партицию, чтобы в нее падали данные за следующий год. То есть, это делается очень редко. Ну а от архитектурных ошибок никто не застрахован, если надо изменить схему партиционирования - то обычно делается это один раз. Иначе какой смысл? Просто в Oracle и в Teradata как мы выяснили партиции имеют разный физический и логический смысл, поэтому если для Терадаты важно динамическое перераспределение партиций на разных серверах, то для Oracle это вообще нонсенс. Может быть меня кто-то тут поправит, но мне это так видится.

Константин Лисянский BirkhoffИмхо, какая-то надуманная проблемаДа. нет. Выход из строя RAID-массива вполне вероятная вещь. Хорошо, не бомба. Дрогнула рука техника - вместо вышедшего из строя диска выдернул соседний из этой же линейки. Да, мало ли что ещё может произойти...Ну ладно, хорошо что такая фича в Терадате есть. Лишние возможности для повышения надежности никому не мешают. Но все-таки она все равно имеет смысл в архитектуре Терадаты и особого смысла не имеет в Оракле. К тому же действительно большие системы на Оракле обычно не полагаются только на средства самого Оракла. Чаще всего туда встраиваются системы для бекапирования и аварийного восстановления как на уровне железа, так и, например, от других производителей ПО типа Veritas. Но в этой области я уже не шибко разбираюсь, поэтому не буду глубоко зарываться. Если есть спецы среди тех, кто это читает, надеюсь меня поправят, если что не так :)

Константин Лисянский BirkhoffНо если бобма в здание попала с сервером, то и тут есть разные технологии типа Data Guard, которые позволяют практически в реальном времени создавать дубль базы на дургом сервере и в случае полного уничтожения основного сервера - поднять резервный. Видимо что то похожее на Dual Active.Ну, не совсем. Если в случае Data Guard нужно резервный сервер поднимать, то в случае Dual Active он постоянно работает и приносит пользу.Опять же это имеет смысл в архитектуре Терадаты. Ну и потом, все зависит от того, сколько времени нужно на подъем резервной базы. Если несколько минут терпит (что в DWH обычно так), то за несколько минут сервер можно поставить в боевой режим.

Константин ЛисянскийКонечно, нет, но индексов нужно больше. А это - больше дискового пространства, больше администрирования.
В целом работает правило, что Терадата требует меньше дискового простанства чем любая другая СУБД (кроме, пожалуй, Sybase IQ, который в этом плане делает всех :)В наше-то время, когда у некоторых дома на компе терабайт диского пространства, экономить на месте на диске для индексов? :)

Константин ЛисянскийЕсть запрос на выборку по полю, не являющемуся первичным индексом (по полу, например). В этом случае все 100 устройств параллелизма будут сканировать свою часть таблицы, сотоящую из 10 тыс. записей. Это вполне предсказуемая нагрузка. Ясно, что, поскольку наши записи перемешаны в случайном порядке, количество записей с мужским или женским полом будет примерно одинаковым на каждом устройстве параллелизма.

Имеет это какой-то смысл или я слишком увлёкся?
Ну я могу допустить, что М и Ж распределены примерно равномерно, но другие данные, например типы проданной продукции по регионам могут довольно сильно различаться от партиции к партиции.

...

Рейтинг:

0 / 0

17.02.2005, 13:21

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32920796

Birkhoff

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Константин ЛисянскийПо поводу COUNT DISTINCT.
Допустим, есть таблица заказов:
order_id, order_date, customer_id, product_id, amount

Вполне логично допустить, что первичным индексом будет order_id для равномерного распределения таблицы по дискам.
Теперь надо вычислить сколько уникальных клиентов сделали заказы в течение года.

SELECT count(DISTINCT customer_id) FROM orders;

Как посчитать параллельно?
Первое соображение - в силу хэширования потенциально на каждом диске имеются записи содержащие все значения customer_id.

Давайте первым шагом перераспределим данные между узлами по столбцу customer_id.Вот этот шаг я не понял - а все остальные понятны :)
У нас же данные отхешированы по order_id? Я понимаю, если бы мы Distinct count считали по order_id - это было бы элементарно, так как на других узлах значения не повторяется и весь запрос сводится к обычному count.
А что значит "перераспределим данные между узлами по столбцу customer_id"?

...

Рейтинг:

0 / 0

17.02.2005, 13:29

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32921822

OLAPMASTER

Участник

Откуда: Москва

Сообщения: 394

Рейтинг: 0 / 0

Незнаю Константин Вы так все интресно рассказываете, но Oracle поверьте мне уж очень хорошо напичкан вопросами хранения данных, и таблицные пространства на разных дисках и партиции и путь теже хинты(писать запросы надо готовой а не мышкой!!!) делают его более гибким чем слона Терраду.

P.S.
Кстате в Oracle тоже локализуеться запрос на партицию. Так что это не только для хранения но и для доступа к данным.

...

Рейтинг:

0 / 0

17.02.2005, 18:42

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32921858

DimaR

Участник

Сообщения: 1 578

Рейтинг: 0 / 0

Вот только что тестировал функцию, кому интересно

Код: plaintext

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.

Это своя аггрегатная функция складывающая числа в строку через запятую

select r.code_shop,str_agg(distinct r.quantity_problem) from cons_wares_rr r
group by r.code_shop

INST_ID	MODULE	PROGRAM	INST_ID	SADDR	SID	SERIAL#	AUDSID
 1 	PL/SQL Developer	ORACLE.EXE (P000)	 1 	95701B84	 83 	 29995 	 1764802 
 1 	PL/SQL Developer	ORACLE.EXE (P001)	 1 	9571C434	 128 	 34902 	 1764802 
 2 	PL/SQL Developer	ORACLE.EXE (P000)	 2 	 95751594 	 218 	 22463 	 1764802 
 2 	PL/SQL Developer	ORACLE.EXE (P001)	 2 	956FEC54	 78 	 49681 	 1764802 

 
----------------------------------------------------------------------------------------------------------------------------
| Id  | Operation               |  Name          | Rows  | Bytes | Cost (%CPU)| Pstart| Pstop |  TQ    |IN-OUT| PQ Distrib |
----------------------------------------------------------------------------------------------------------------------------
|    0  | SELECT STATEMENT        |                |     10  |    170  |  14798   ( 14 )|       |       |        |      |            |
|    1  |  PARTITION LIST ALL     |                |       |       |            |      1  |      9  |  31 , 02   | PCWP |            |
|    2  |   SORT GROUP BY         |                |     10  |    170  |  14798   ( 14 )|       |       |  31 , 02   | P->S | QC (RAND)  |
|    3  |    SORT GROUP BY        |                |     10  |    170  |  14798   ( 14 )|       |       |  31 , 01   | P->P | HASH       |
|    4  |     SORT GROUP BY       |                |     10  |    170  |  14798   ( 14 )|       |       |  31 , 00   | P->P | HASH       |
|    5  |      PARTITION RANGE ALL|                |       |       |            |      1  |      4  |  31 , 00   | PCWP |            |
|    6  |       TABLE ACCESS FULL | CONS_WARES_RR  |    39M|   642M|  13148    ( 4 )|      1  |     36  |  31 , 00   | PCWP |            |
----------------------------------------------------------------------------------------------------------------------------
 
PX Slave SQL Information (identified by operation id):
------------------------------------------------------
 
    2  - SELECT /*+ CIV_GB */ A1.C0,"LIA"."STR_AGG"(DISTINCT SYS_OP_CSR(A1.C1, 0 )) FROM :Q19931001 A1 GROUP BY A1.C0
 
    3  - SELECT /*+ TIV_GB */ A1.C0 C0,SYS_OP_MSR("LIA"."STR_AGG"(DISTINCT SYS_OP_CSR(A1.C1, 0 ))) C1 FROM :Q19931000 A1 GROUP 
              BY A1.C0
 
    4  - SELECT /*+ PIV_GB */ A1.C0 C0,SYS_OP_MSR("LIA"."STR_AGG"(DISTINCT TO_CHAR(A1.C1))) C1 FROM (SELECT /*+ NO_EXPAND 
              ROWID(A2) */ A2."CODE_SHOP" C0,A2."QUANTITY_PROBLEM" C1 FROM "LIA"."CONS_WARES_RR" PX_GRANULE( 0 , BLOCK_RANGE, DYNAMIC)  A2) 
              A1 GROUP BY A1.C0

INST_ID это нода кластера Oracle

...

Рейтинг:

0 / 0

17.02.2005, 19:00

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32921923

Birkhoff

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

2 Константин

Я вообще понял предлагаемый алгоритм обсчета Distinct Count (на каждой ноде собирается список уникальных значений, потом все списки с каждой ноды объединяются, сортируются и там опять производится выборка уникальных), но мне кажется при большом количестве различных значений он должен вызвать огромный трафик, тем более если у нас 300 узлов.

...

Рейтинг:

0 / 0

17.02.2005, 19:40

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922053

Андрей Прохоров

Гость

OLAPMASTER... делают его более гибким чем слона Терраду
Может быть не стоит ярлыками бросаться? Технический форум все-таки.

...

Рейтинг:

0 / 0

17.02.2005, 22:32

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922059

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

BirkhoffЯ вообще понял предлагаемый алгоритм обсчета Distinct Count (на каждой ноде собирается список уникальных значений, потом все списки с каждой ноды объединяются, сортируются и там опять производится выборка уникальных), но мне кажется при большом количестве различных значений он должен вызвать огромный трафик, тем более если у нас 300 узлов.

Да, но это лишь один из вариантов. Чтобы разобраться получше рекомендую прочитать статью, ссылку на которую я привёл выше.
Просто возмоны ещё алгоритмы - например, если количество уникальных групп мало, то выгодно после локальной шруппировки на каждом узле передать всё на один узел, а не перераспределять между узлами.
Другой вариант - сначала перераспределить данные по группируемому (групиируемым, если их много) столбцу, а вторым этапом сделать все параллельно.
Адаптивные алгоритмы, которые предлагают ребята в статье могут начать с любого из двух или трёх вариантов, а потом передумать и переключиться на альтернативный алгоритм.
Напрмер, начинаем с локальной агрегации, потом видим, что уникальных групп очень много, тогда перераспределяем агрегаты, которые уже посчитали и начинаем перераспределять неагрегированные записи. В результате получим на каждом узле частично агрегированные и неагрегированные записи. Следующим этапом производим финальное агрегирование.
Или наоборот, начинаем с перераспределения, потом видим, что можно агрегировать и начинаем агрегировать и т.д.

В общем, теперь уже хорошо видно, что DISTINCT COUNT распараллеливается эффективно.

Что касается трафика - это, как я уже говорил, не проблема. Дело в том, что Терадата использует коммутатор с пропускной способностью, пропорциональной количеству узлов в системе. Это значит, что при добавлении нового узла пропускная способность возрастает на определённую величину. Соответственно, система из 300 узлов обладает громадной общей пропускной способностью.
Сообщения через коммутатор можно посылать трёх видов - точка-точка, broadcast и multicast.
Соответственно, при перераспределении данных данные с узла на ужел шлются по коммутируемому каналу, другие каналы при этом не мешают. То есть это просходит параллельно.
Ну, а пропускная способность коммутатора такова, что узким местом скорее являются диски, нежели коммутатор.

Ну, и, опять-таки, повторюсь - межузловой трафик в Терадате присутствует постоянно, поскольку перераспределение данных, как правило, предшествует операции джойна таблиц.

Ещё одно соображение - время выполнения перераспределения данных между узлами пропорционально количеству записей в таблице. То есть, это операция линейная.

Сортировка же пропорциональна NlogN, где N - количество записей. То есть это нелинейная операция. С ростом количества записей она выполняется всё медленней (в смысле, на единицу записи).

Соответственно, параллелизм окупается, поскольку время выполнения операции становится пропорционально N+ NlogN/nAMPS, где nAMS - количество единиц параллелизма в то время как при непараллельном выполнении операции это время пропорционально NlogN. Очевидно, это справедливо на больших N.

Уф :)

Кстати, я не математик - поравьте, если выкладки некорректно сделал.

Удачи!

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

17.02.2005, 22:49

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922061

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

Birkhoff Отсюда вопрос. А какое железо нужно Терадате? Могу ли я построить эту систему из кучи старых писюков с Pentium 1 на борту и ОС Windows? (утрирую) Либо нужно обязательно покупать сервера специальной архитектуры и специальные коммутаторы?

Есть два варианта.
1. Любой SMP-сервер на платформе Intel (у меня на ноутбуке, например, крутится). Естественно, это будет решение начального уровня.
2. Массивно-параллельная система производства NCR (узлы на основе двухпроцессорных серверов на платформе Intel плюс коммутатор BYNET).

Собрать самостоятельно вряд ли получится :)

По поводу операционки - работает под W2K или под UNIX (MP-RAS).

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

17.02.2005, 22:53

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922068

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

BirkhoffА где он находится? На сервере с PE? Или еще где то?

Боюсь соврать. Но, кажется он является частью PE. Сами блокировки осуществляют AMPы (единицы параллелизма).

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

17.02.2005, 23:04

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922079

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

К вопросу о трафике и о коммутаторе BYNET.
Эта информация уже немного устарела в части цифр, но основные моменты сохранились:

The Teradata BYNET interconnect differs from other communication technology on the market (Ethernet, for example) by moving data from one location to another on the network. The network bandwidth is a function only of the equipment purchased.

A gigabyte Ethernet can move 1 GB regardless of how many computers are attached to it: More computers mean more contention and slower performance for all on the network. The BYNET works like a phone switch, quite different from the typical network. Its switched "folded banyan" architecture delivers additional network bandwidth for each node added to the configuration. Each connection to a node delivers 120 MB/sec. A 2-node system has a 240 MB/sec. interconnect; 4 nodes, 480 MB/sec.; 8 nodes, 960 MB/sec.; 100 nodes, 12 GB/sec. The current BYNET implementation can support up to 512 nodes (1 to 4 PB,) but the design is capable of 4,096 nodes (8 to 32 PB) if a customer is ready to solve a problem of that magnitude.

In addition to delivering fully scalable point-to-point bandwidth, the BYNET implements specialized functions not offered by other networking solutions. It can broadcast-deliver a single message-to some or all of the nodes in the MPP configuration. There are many database functions that need to be performed on all nodes at once. With broadcast, the database has to send and manage only one message and one response, lowering the cost and increasing the performance. The BYNET guarantees delivery of every message and ensures that broadcasts get to every target node. So the database isn't plagued by communication errors or network failures and does not have to pay the price of acknowledgements or other error-detection protocols.

The BYNET implements global semaphores so the database can coordinate operations that span some or all nodes. "First done, last done" and counting semaphores implemented at a very low protocol level make these coordination functions efficient and simple. When it is time to return results to a user or application, the BYNET supplies the merge function. Unlike other parallel databases that pull the result set together in one node to deliver the appropriately sorted result, Teradata leaves each portion of the result set on the node where it was created, sorted locally. The merge function collates just enough of the result to fill the user's buffer with result records, then waits for the user to request more rows. Merge makes returning results a scalable operation regardless of their size.
The BYNET performs all of these functions using low-level communication protocols. It is a circuit-switched network, so the large messages that the database sends get through quickly. Higher-level connections are not required; each message simply has a destination address identifying the one or more nodes to which it will be delivered. This messaging architecture eliminates the cost and time required to create, manage and destroy connections in a protocol such as TCP/IP, a cost that escalates exponentially (non-scalable) as nodes are added to the system.

Источник здесь .

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

17.02.2005, 23:42

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922117

Birkhoff

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Константин ЛисянскийДругой вариант - сначала перераспределить данные по группируемому (групиируемым, если их много) столбцу, а вторым этапом сделать все параллельно.Вот я так и не понимаю, чтоже кроется за словом "перераспределение"?
Что значит данные перераспределяются? Раньше писалось, что они как-бы даже перераспределяются между узлами?

...

Рейтинг:

0 / 0

18.02.2005, 02:42

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922119

Birkhoff

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Константин ЛисянскийК вопросу о трафике и о коммутаторе BYNET.
Эта информация уже немного устарела в части цифр, но основные моменты сохранились:

The Teradata BYNET interconnect differs from other communication technology on the market (Ethernet, for example) by moving data from one location to another on the network. The network bandwidth is a function only of the equipment purchased.

A gigabyte Ethernet can move 1 GB regardless of how many computers are attached to it: More computers mean more contention and slower performance for all on the network. The BYNET works like a phone switch, quite different from the typical network. Its switched "folded banyan" architecture delivers additional network bandwidth for each node added to the configuration. Each connection to a node delivers 120 MB/sec. A 2-node system has a 240 MB/sec. interconnect; 4 nodes, 480 MB/sec.; 8 nodes, 960 MB/sec.; 100 nodes, 12 GB/sec. The current BYNET implementation can support up to 512 nodes (1 to 4 PB,) but the design is capable of 4,096 nodes (8 to 32 PB) if a customer is ready to solve a problem of that magnitude.Чудеса какие-то :)
Из этой статьи правда совершенно не ясно, как этот "баньян" обеспечивает такую гигантскую пропускную споосбность? Или здесь просто суммируются 120 MB/sec каждых двух взаимных соединений? Если так, тогда это ничего не гарантирует....

...

Рейтинг:

0 / 0

18.02.2005, 02:54

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922384

DimaR

Участник

Сообщения: 1 578

Рейтинг: 0 / 0

Константин Лисянский
Есть два варианта.
1. Любой SMP-сервер на платформе Intel (у меня на ноутбуке, например, крутится). Естественно, это будет решение начального уровня.
2. Массивно-параллельная система производства NCR (узлы на основе двухпроцессорных серверов на платформе Intel плюс коммутатор BYNET).

Собрать самостоятельно вряд ли получится :)

По поводу операционки - работает под W2K или под UNIX (MP-RAS).

Ведь шфред сторедж не нужен, как в оракле,
неужели 3 ноды с гигабитными сетевыми картами, (такие щас на продвинутых PC),
на "коленке" не собрать?

...

Рейтинг:

0 / 0

18.02.2005, 10:02

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32922790

nkulikov

Гость

2DIMAR

Самый большой недостаток(может быть это и преимущество) терадаты
это то что MPP конфигурации могут быть собраны только на NCR железе.

В отличии от например от DB2 и Informix XPS.

Константин поправит если я не прав.

P.S. помоему еще HP-UX поддерживается для не МPP архиектур.

...

Рейтинг:

0 / 0

18.02.2005, 12:00

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923134

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

nkulikovСамый большой недостаток(может быть это и преимущество) терадаты
это то что MPP конфигурации могут быть собраны только на NCR железе.

Николай, мы, вроде бы, даже это обсуждали уже.
С одной стороны - недостаток. С другой стороны - преимущество. Оптимизатор Терадаты использует для оценки стоимости запроса конкретные физические параметры системы, на которой работает Терадата, и принимает решения об эффективности планов запросов.

nkulikovВ отличии от например от DB2 и Informix XPS.

Если я не ошибаюсь, DB2 в массивно-параллельной конфигурации работает только на платформе IBM. Возможно, я не прав.

nkulikovпомоему еще HP-UX поддерживается для не МPP архиектур

Да, поддерживается. Честно говоря, не знаю, сколько существует таких инсталляций. Скорее всего, не очень много.

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

18.02.2005, 13:29

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923200

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

BirkhoffВот я так и не понимаю, чтоже кроется за словом "перераспределение"?
Что значит данные перераспределяются? Раньше писалось, что они как-бы даже перераспределяются между узлами?

Это значит, данные физически перемещаются по коммутатору на другие узлы.
Если, например первоначально таблица транзакций распределена по столбцу trans_id, а требуется поискать уникальные записи по столбцу customer_id, то таблица будет перераспределена между узлами по этому столбцу.

Попробую нарисовать.

Допустим, у нас два узла и целые числа распределяются путём хэширования по узлам следующим образом:

Узел1 - 1, 2, 3
Узел2 - 4, 5, 6

До перераспределения (trans_id, customer_id):

Узел 1 (1, 1) (2, 5) (3, 3)
Узел 2 (4, 1) (5, 4) (6, 6)

После перераспределения (trans_id, customer_id):

Узел 1 (1, 1) (4, 1) (3, 3)
Узел 2 (5, 4) (6, 6) (2, 5)

Так понятно?

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

18.02.2005, 13:51

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923272

DimaR

Участник

Сообщения: 1 578

Рейтинг: 0 / 0

Константин Лисянский
Узел1 - 1, 2, 3
Узел2 - 4, 5, 6

До перераспределения (trans_id, customer_id):

Узел 1 (1, 1) (2, 5) (3, 3)
Узел 2 (4, 1) (5, 4) (6, 6)

После перераспределения (trans_id, customer_id):

Узел 1 (1, 1) (4, 1) (3, 3)
Узел 2 (5, 4) (6, 6) (2, 5)

Так понятно?

Это серьезно?

И как же
"Соответственно, запросы типа ad hoc (характерные для хранилищ данных)"

Будут выполняться эффективно?

Я наверное, всетаки чегото недопонимаю...,
если можно, еще чего нибуть об этом расскажите.

...

Рейтинг:

0 / 0

18.02.2005, 14:05

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923294

DimaR

Участник

Сообщения: 1 578

Рейтинг: 0 / 0

Если одновременно пользователи запросили,
один по
customer_id
а другой например по другому полю
order_id

Как это все будет колбаситься?

...

Рейтинг:

0 / 0

18.02.2005, 14:11

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923310

Birkhoff

Участник

Откуда: Москва

Сообщения: 2 987

Рейтинг: 0 / 0

Присоединяюсь.
Непонятно, если терабайты данных с разных узлов сначала будут перекачиваться с узла на узел а потом обрабатываться, почему это будет быстро? Дело не только в пропускной способности коммутаторов, с которыми все также не совсем ясно, но и в памяти на узлах. Терабайтные куски должны будут писаться на диски, а диск - штука медленная...

...

Рейтинг:

0 / 0

18.02.2005, 14:16

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923357

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

Если одновременно пользователи запросили,
один по
customer_id
а другой например по другому полю
order_id

Как это все будет колбаситься?

Для каждого запроса создастся по отдельному спул-файлу, которые будут перераспределены каждый по своему полю.
Дальше каждый запрос будет параллельно обрабатываться.

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

18.02.2005, 14:30

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923431

DimaR

Участник

Сообщения: 1 578

Рейтинг: 0 / 0

???
Все больше непонимания

На русском есть чего нибуть про терадату (не маркетинг),
для беглого ознакомления.

...

Рейтинг:

0 / 0

18.02.2005, 14:48

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923433

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

BirkhoffПрисоединяюсь.
Непонятно, если терабайты данных с разных узлов сначала будут перекачиваться с узла на узел а потом обрабатываться, почему это будет быстро? Дело не только в пропускной способности коммутаторов, с которыми все также не совсем ясно, но и в памяти на узлах. Терабайтные куски должны будут писаться на диски, а диск - штука медленная...

Терабайты на диски будут писаться в любом случае, поскольку промежуточные файлы понадобятся вне зависимости от того, какая архитектура у системы. На терабайты никайкой памяти и никакого кэша не напасёшься. Надеюсь, с этим спорить не нужно?

Теперь рассмотрим опять наш случай.
В системе с 300 узлами будет 3000 зеркальных пары. Посчитать общую пропускную способность оставляю за вами. Думаю, цифра получится впечатляющая.

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

18.02.2005, 14:48

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923446

nkulikov

Гость

2Kонстантин,

Отнюдь DB2 MPP конфигурации поддерживает на всех платформах
Win, Linux (x86,AMD,Power, Itanium), Sun, AIX, HP-UX

Я не понимаю почему конкретные параметры железа нельзя учитывать на других платформах

DB2 учитывает и СPU speed, и храктеристики сети, и характеристики дисков, объем памяти

Какая еще информация о железе нужна, для оценки плана запроса.
Мне кажется это давление железячного подразделения на софтовое

...

Рейтинг:

0 / 0

18.02.2005, 14:51

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923458

Константин Лисянский

Участник

Откуда: Москва

Сообщения: 884

Рейтинг: 0 / 0

Все больше непонимания

На русском есть чего нибуть про терадату (не маркетинг),
для беглого ознакомления.

К сожалению, на русском нету. Могу подкинуть ссылку на английском.
На русском могу при личной встрече рассказать, если такой сильный интерес проснулся.

С уважением,
Константин Лисянский
http://lissianski.narod.ru

...

Рейтинг:

0 / 0

18.02.2005, 14:55

| Ответить | Цитировать | Написать

Что за зверь такой Teradata

#32923469

nkulikov

Гость

Константин поправит.

В Teradata тоже наверное есть понятие как сolocated join

Это когда подбирется ключ для хэширования одинаковый для нескольких таблиц.

Например
Table Customer
(customer_id, customer_columns...)
Table transactions
(trans_id, customer_id, trans_columns...)

Partitionig key выбирается для обеих таблиц сustomer_id

Тогда join этих таблиц идет в пределах одного узла без передачи данных на другие узлы.

Пример примитивный не учитывает что может быть data skew (когда на одном узле данных больше чем на другом)

...

Рейтинг:

0 / 0

18.02.2005, 14:59

| Ответить | Цитировать | Написать

25 сообщений из 153, страница 3 из 7

все

Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Что за зверь такой Teradata

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=49&msg=32923134&tid=1871718]:	0ms
get settings:	8ms
get forum list:	16ms
check forum access:	3ms
check topic access:	3ms
track hit:	57ms
get topic data:	13ms
get forum data:	3ms
get page messages:	92ms
get tp. blocked users:	2ms
others:	230ms

total:	427ms