powered by simpleCommunicator - 2.0.60     © 2026 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Что за зверь такой Teradata
25 сообщений из 153, страница 4 из 7
Что за зверь такой Teradata
    #32923487
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
НиколайОтнюдь DB2 MPP конфигурации поддерживает на всех платформах
Win, Linux (x86,AMD,Power, Itanium), Sun, AIX, HP-UX

ОК.

Я не понимаю почему конкретные параметры железа нельзя учитывать на других платформах

Можно, только для этого код надо будет оптимизировать для каждого сочетания железяка/операционная система.

Всяко легче и более эффективнее писать под что-то одно.


Народ сейчас, похоже, заинтересовала другая тема - "Как вообще массивно-параллельные системы могут быстро работать"?
Видите, какое удивление в студии?



С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32923558
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Константин ЛисянскийНарод сейчас, похоже, заинтересовала другая тема - "Как вообще массивно-параллельные системы могут быстро работать"?
Видите, какое удивление в студии?То, что они могут работать быстро - не странно. Странно что они могут работать быстро обрабатывая данные так, как вы рассказываеете. :)

Я вот по прежнему не могу понять почему для того чтобы обсчитать какой нибудь агрегат нельзя на каждом узле обсчитать его на основе тах данных, что есть на этом узле. А потом где то сложить промежуточные результаты и окончательно их досчитать.
Вместо этого предлагается сначала выбрать данные по определенному условию, затем взаимно перекачать между узлами, записать там на диски и потом только обсчитать агрегат уже по перегруппированным кускам данных. Вот в этом месте картинка как-то не складывается :)
Почему такая глобальная перекачака данных быстрее, чем выборка на каждому узле и пересылка результатов?
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32923578
nkulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Потому-что диски гораздо медленнее чем сеть. Как это дико не звучит.

Для того что-бы забить гигабитный ethernet читая файл огромных размеров. Вам потребуется примерно 14 дисков. Кэш данных контроллера в таких задачах играет скорее отрицательную роль чем положительную.
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32923666
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
nkulikovПотому-что диски гораздо медленнее чем сеть. Как это дико не звучит.

Для того что-бы забить гигабитный ethernet читая файл огромных размеров. Вам потребуется примерно 14 дисков. Кэш данных контроллера в таких задачах играет скорее отрицательную роль чем положительную.Как будто кто то спорит с тем, что диски медленнее, чем сеть? ПО моему пару постов назад я и сказал что диски штука медленная.
Не в этом вопрос. Просто весь механизм можно разбить на несколько частей:
1. Чтение с дисков (медленно)
2. Пересылка по сети на другие узлы (очень быстро)
3. Запись на диск на другом узле (очень медленно)
4. Окончательно чтение на другом узле (медленно)

Причем тут сеть? Да будь она хоть в миллион раз быстрее чем диск, чтение-запись с диска на диск никто не отменял.
Поэтому и непонимание здесь в том, зачем делать две медленных и одну очень медленную операцию, вместо того, чтобы обойтись одной медленной?
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32923678
DimaR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Константин Лисянский
Терабайты на диски будут писаться в любом случае, поскольку промежуточные файлы понадобятся вне зависимости от того, какая архитектура у системы. На терабайты никайкой памяти и никакого кэша не напасёшься. Надеюсь, с этим спорить не нужно?


Ну аочему же, не нужно, а форум на что? :)

select r.code_source, count(distinct r.quantity_problem)
from lia.cons_wares_rr r
group by r.code_source

по этим полям таблица не партиционированая по этим полям



physical reads 48877
physical reads direct 48877

Всего прочитано блоков, без учета кеша
48877*8192/1024/1024=

381 MB

session pga memory max 589824
Использовано памяти для сортировок

sorts (disk) 0
sorts (memory) 15
(только память)

sorts (rows) 5345247
строк отсортировано

table scan blocks gotten 48878
блоков получено (см. выше)

PX remote messages recv'd 56
PX remote messages sent 56
параметр parallel_execution_message_size = 2148 , 56*2148
=120288 байт обмен между нодами


так что никаких спулов не видно
с памятью я не уверен,
но думаю если проанализировать параллельные сервера при выполнении,
то затраты памяти там будут небольшие.
(ораклоиды поправте меня, или подскажите чего еще посмотреть)
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32923745
nkulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
381 mb - очень хорошо помещается в OЗУ моего ноутбука :)

В приципе на TPC-C первое место занимает конфигурация с 2 ТБ OЗУ.

Но если мы говорим о ХД размером от терабайта то буфферные пулы там не большие помощники ибо если работает, не один запрос а хотя бы с 10-ок.
И каждый сканирует пол БД то все эти данные ты в кэш не запихнешь.
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32923790
DimaR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Я же говорю, что память не расходуется,
на эту операцию, и трафика между нодами нету.
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32924436
BirkhoffПричем тут сеть? Да будь она хоть в миллион раз быстрее чем диск, чтение-запись с диска на диск никто не отменял.
Поэтому и непонимание здесь в том, зачем делать две медленных и одну очень медленную операцию, вместо того, чтобы обойтись одной медленной?
При массовых операциях на одном узле работает не один диск, а около 10, причем параллельно. Использование собственного железа позволяет сбалансировать проиводительность дисковой подсистемы, пропускную способность комутатора и процессорную мощность узлов. Поэтому здесь нельзя утверждать, что какая-то операция заведомо быстрее, а какая-то медленнее.
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32925339
DimaR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Андрей Прохоров
При массовых операциях на одном узле работает не один диск, а около 10, причем параллельно.

Ну что за аргументы, элементарным страйпингом добивается параллельная работа многих дисков, и что?

Вопросы стоят о том как параллелятся задачи в террадате, особенно между большим количеством узлов.
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32925451
DimaRНу что за аргументы, элементарным страйпингом добивается параллельная работа многих дисков, и что?
Расскажите, пожалуйста, как данные, считанные с одного логического устройства (партишона) со страйпингом могут быть параллельно обработаны? Желательно со сслыками на документацию.
DimaRВопросы стоят о том как параллелятся задачи в террадате, особенно между большим количеством узлов.
Минимальная единица паралелизма - это AMP, который управляет одним или двумя зазеркаленныи дисками. Распределение данных между AMP-ами обуспечивается при помощи hash-алгоритма. Типичная конфигурация 8-12 AMP-ов на узле.
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32925478
DimaR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
"При массовых операциях на одном узле работает не один диск, а около 10, причем параллельно."


to Андрей Прохоров
Извиняюсь, неправильно понял


"Минимальная единица паралелизма - это AMP, который управляет одним или двумя зазеркаленныи дисками. Распределение данных между AMP-ами обуспечивается при помощи hash-алгоритма. Типичная конфигурация 8-12 AMP-ов на узле."

А можно поразвернутей, интересно.
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32925489
DimaR
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
При массовых операциях на одном узле работает не один диск, а около 10, причем параллельно.

Типичная конфигурация 8-12 AMP-ов на узле."


Сколько процессоров в такой типичной конфигурации на 1 узле?
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32925797
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В современных узлах по 2 интеловских процессора. Раньше было больше.
Например, система 5100 имела узлы по 16 процессоров (Pentium Pro 200).

С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32925873
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BirkhoffТо, что они могут работать быстро - не странно. Странно что они могут работать быстро обрабатывая данные так, как вы рассказываеете. :)

Я вот по прежнему не могу понять почему для того чтобы обсчитать какой нибудь агрегат нельзя на каждом узле обсчитать его на основе тах данных, что есть на этом узле. А потом где то сложить промежуточные результаты и окончательно их досчитать.
Вместо этого предлагается сначала выбрать данные по определенному условию, затем взаимно перекачать между узлами, записать там на диски и потом только обсчитать агрегат уже по перегруппированным кускам данных. Вот в этом месте картинка как-то не складывается :)
Почему такая глобальная перекачака данных быстрее, чем выборка на каждому узле и пересылка результатов?

Я по-моему, уже приводил математические выкладки относительно распараллеливания.

Всё основывается на том, что операция сортировки выполняется за время, пропорциональное N*logN, где N- количество записей в таблице.
Операция же перераспределения данных абсолютно линейна, то есть пропорциональна количеству записей в таблице.

Соответственно, разбивая задачу на более мелкие кусочки мы выигрываем на нелинейной части.
Понятное дело, что существует N, при котором будет выгоднее сделать финальную обработку на одном узле, избегая перераспределения. Но это справедливо при небольших значениях N. Это, кстати показывают ребята в статье, ссылку на которую я привёл выше. Ещё раз рекомендую ознакомиться с ней. Это должно помочь снять некоторые вопросы.



С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32925981
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Константин,

По моему до меня дошло :) По крайней мере, я понял принцип.
Все равно странно, что он работает, но это может быть в сиду непривычности идеи. :)
А вот когда происходят перераспределения данных между узлами - на каждый узел попадает копия данных, которая после отработки запроса удаляется? Или она там сохраняется?
Что произойдет если следующий пользователь захочет выполнить примерно такой же запрос?
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32926112
авторА можно поразвернутей, интересно.
Постараюсь в общих чертах. За подробностями, лучше смотреть по ссылке Константина.

При создании каждой таблицы у нее определяется Primary Index (PI). Это может быть первичный ключ, а может быть и др. колонка, имеющая значительное количество отличных значений. Для каждого значения этой колонки вычисляет значение хэш функции. Первые 16 бит используются для определения AMP-а, где будет храниться запись. Для этого используется таблица, где для каждого из 64k значений хранится номер AMP-а, куда попадут записи с таким значением. На дисковом пространстве AMP-е используется еще несколько хэш таблиц для быстрого доступа к записи по хэш значению.

AMP - обеспечивает всю обработку данных, которые находятся под его управлением. Функционирование нескольких AMP-ов на одном узле обеспечивает параллелизм ввода-вывода и обработки полученных данных внутри одного узла. Межузловой параллелизм координируется за счет железа и софта BYNET, а также компоненты Parsing Engine.

Партишонинг внтури AMP-а обеспечивает сокращения количества просматриваемых записей при доступе не по хэш значению за счет Partitioning Elimination.

Внешне механика похожа на использование одновременно hash & list partitioning в Oracle. Однако есть существенные отличия:
1) DDL и скрипты быстрой загрузки-выгрузки не зависят от аппаратной конфигурации системы, т.е. количества узлов, особенностей дисковой подсистемы.
2) Равномерность распределения данных при любом числе узлов. В Oracle придется использовать кол-во узлов кратное степени 2-ки (Так указано в доке по 10gR1).
3) Хэш, т.е. Primary Index обеспечивает не только распределение данных, но быстрый поиск записи по хэш значению. (Просьба не сравнивать с B-tree индексом по партишону, рассматривалось выше).
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32926181
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BirkhoffПо моему до меня дошло :) По крайней мере, я понял принцип.

Ура! Я объяснял, как мог. Сорри, что с первого раза не сумел.

BirkhoffВсе равно странно, что он работает, но это может быть в сиду непривычности идеи. :)

Сам удивляюсь :)

BirkhoffА вот когда происходят перераспределения данных между узлами - на каждый узел попадает копия данных, которая после отработки запроса удаляется? Или она там сохраняется?
Что произойдет если следующий пользователь захочет выполнить примерно такой же запрос?

Перераспределённая копия таблицы остаётся живой, пока в ней существует необходимость в пределах запроса (или группы запросов, если это multistatement request).

Для другого пользователя таблица будет перераспределяться заново. Ведь за время между двумя запросами она могла измениться, не так ли? Мы же много пользовательскую среду рассматриваем.


2 DimaR:
Я, честно говоря, немного не понял, что Вы хотели показать своим примером.
Поясните, пожалуйста.
Если Вы хотите показать, что для сортировки не используется диск, то попробуйте запустить с десяток таких запросов параллельно, как рекомендует Николай. Посмотрите, что у Вас получится, когда будут переключаться контексты между пользователями. Скорее всего, будет своп на диск в большом количестве. При этом свопится будет вся память процессов. При обратном переключении надо будет это всё опять с дисков читать в память.

В случае, если сортировка использует активно использует диски, в многопользовательской среде это будет работать лучше, поскольку операций чтения и записи будет выполняться меньше.

Это мои соображения. Возможно, я не прав. Если так, поправьте, пожалуйста.

DimaRНу что за аргументы, элементарным страйпингом добивается параллельная работа многих дисков, и что?

Данные мало размазать, их ещё надо параллельно обрабатывать.
Речь идёт о том, что данные должны быть привязаны к единицам параллелизма, а этого, на мой взгляд, простым страйпингом не добиться.

DimaRВопросы стоят о том как параллелятся задачи в террадате, особенно между большим количеством узлов.


Вроде бы, принцип я уже объяснял - равномерно размазываем каждую таблицу путём хэширования между всеми узлами. Чем больше узлов - тем быстрее работает система, поскольку кусочки таблиц, расположенные на каждом узле становятся меньше.

Мы уже обсудили тут и поняли, что распараллеливание позволяет быстрее выполнять операцию сортировки. Эта операция, кстати, является базовой для большинства алгоритмов обработки данных. Например, большинство алгоритмов джойнов основаны на предварительной сортировке данных.

Вот и всё. Остальное, в принципе, детали реализации. Которые, кстати, я готов тоже в меру своих возможностей описать.
Только просьба - задавайте вопросы немного поконкретнее.


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32926727
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Константин,

Спасибо за объяснения.
А есть ли какая нибудь теория, когда внедрение Терадаты опроавдано?
Ведь сейчас уровень железа достиг таких высот, что на обычном 4х процессорном сервере с "обычным" дисковым массивом, большим объемом памяти и "обычной" реляционной базой можно крутить телекомовские объемы данных. А у обычных пользователей запросы и вовсе гораздо проще.
Не получается ли так, что закон Мура сводит на нет преимущества Терадаты в реальных проектах? Вернее сказать, то, что сферы применения найти можно я уверен, но может этих сфер становится меньше?
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32928684
nkulikov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Реальные телекомовские объемы...

• Approximately 150 million Call Detail Records (CDRs) are loaded daily, and an equivalent number are deleted
• Rolling 60 days of CDR data
• 4.5 Billion transactions per day
• 7,000 customer care users
• Available 24x7x365, never have to REORG


Конфигурацию сервера не подскажете???? :)
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32928745
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
nkulikovРеальные телекомовские объемы...

• Approximately 150 million Call Detail Records (CDRs) are loaded daily, and an equivalent number are deleted
• Rolling 60 days of CDR data
• 4.5 Billion transactions per day
• 7,000 customer care users
• Available 24x7x365, never have to REORG


Конфигурацию сервера не подскажете???? :)Дык я про это и говорю.
Конечно если взять какой нибудь France Telecom или наш MTS тот же, там будут подобные объемы. Но и там Oracle стоит к примеру. Справляется.
Но сколько таких?
А тем более, сколько таких в России?
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32928755
Birkhoff
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И вот еще вопрос.
Если принять во внимание что разослать по ущлам данные и потом пересичтать будет быстрее, чем пересчитать на каждом узле без пересылки, какое результируещее время отлика?
Какой порядок кремени отработки средних запросов? Секунды? Десятки секунд? Минуты? Десятки минут?
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32929432
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BirkhoffКонстантин,

Спасибо за объяснения.
А есть ли какая нибудь теория, когда внедрение Терадаты опроавдано?
Ведь сейчас уровень железа достиг таких высот, что на обычном 4х процессорном сервере с "обычным" дисковым массивом, большим объемом памяти и "обычной" реляционной базой можно крутить телекомовские объемы данных. А у обычных пользователей запросы и вовсе гораздо проще.
Не получается ли так, что закон Мура сводит на нет преимущества Терадаты в реальных проектах? Вернее сказать, то, что сферы применения найти можно я уверен, но может этих сфер становится меньше?

Внедрение Терадаты оправдано там, где нужно построить хранилище (витрину) данных для эффективной обработки больших объёмов данных, выполнения сложных аналитических запросов в многопользовательской среде, там, где требуется высокая надёжность и хорошая масштабируемость.
Любое более-менее серьёзное хранилище данных выдвигает все эти требования.

Терадата не работает с "необычными" дисковыми массивами. Это стандартные SCSI или FC дисковые массивы. Например EMC, или дисковые массивы NCR (OEM, производителя навскидку не вспомню).

Что такое "обычная" реляционная база данных? SQL стандарта ANSI 99, возможность подключиться по ODBC, JDBC, CLI. Всё это есть в Терадате. Это - обычная реляционная СУБД. Просто она затачивалась под определённые задачи.

Что касается телекомовских объёмов данных и четырёхпроцессорных систем - это, на мой взгляд заблуждение.
Терадатная система в Vodafon Germany весит под 100 тонн. Там что-то порядка 160 узлов. Систему активно используют порядка 4 тысяч пользователей. Сомневаюсь, что "обычная" СУБД на 4-процессорном сервере сможет это всё обрабатывать.

Закон Мура касается скорости процессоров. СУБД - системы, в основном, дисковые (а Терадата - тем более). Там закон Мура не действует (наверное, в силу наличия механических частей). Скорость работы дисков растёт не так стремительно.

Сфера применения Терадаты не только не сужается, но и расширяется.
Скорость роста количества данных на планете опережает темпы развития СУБД. Возьмите, например, технологию RFID. После её введения объёмы данных, генерируемые на всём пути прохождения товара от производителя до потребителя увеличатся, как минимум, на порядок.


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32929436
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
НиколайРеальные телекомовские объемы...

• Approximately 150 million Call Detail Records (CDRs) are loaded daily, and an equivalent number are deleted
• Rolling 60 days of CDR data
• 4.5 Billion transactions per day
• 7,000 customer care users
• Available 24x7x365, never have to REORG


Конфигурацию сервера не подскажете???? :)


А Вы это откуда взяли?



С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32929438
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BirkhoffКонечно если взять какой нибудь France Telecom или наш MTS тот же, там будут подобные объемы. Но и там Oracle стоит к примеру. Справляется.

По поводу справляется во Франс Телеком - Вы знаете с чем справляется?


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
Что за зверь такой Teradata
    #32929439
Константин Лисянский
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
BirkhoffИ вот еще вопрос.
Если принять во внимание что разослать по ущлам данные и потом пересичтать будет быстрее, чем пересчитать на каждом узле без пересылки, какое результируещее время отлика?
Какой порядок кремени отработки средних запросов? Секунды? Десятки секунд? Минуты? Десятки минут?

Ещё разок взгляните на свой вопрос. Не кажется, что на него мне трудно будет ответить.
На этом форуме, есть только один человек, у которого все запросы за 5 секунд выполняются.

Сами понимаете, всё зависит от того, какие запросы. Например, тактические запросы могут выполняться за доли секунды. Это небольшие запросы типа OLTP, но поступающие в большом количестве.
Бывают сложные запросы, которые могут выполняться минуты, десятки минут и часы.
"Средний запрос" трудно себе представить.
Не пинайте сильно, не смогу на этот вопрос ответить достоверно.


С уважением,
Константин Лисянский
http://lissianski.narod.ru
...
Рейтинг: 0 / 0
25 сообщений из 153, страница 4 из 7
Форумы / OLAP и DWH [игнор отключен] [закрыт для гостей] / Что за зверь такой Teradata
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]