Этот баннер — требование Роскомнадзора для исполнения 152 ФЗ.
«На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даёте согласие с использованием данных технологий».
Политика конфиденциальности
|
|
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
НиколайОтнюдь DB2 MPP конфигурации поддерживает на всех платформах Win, Linux (x86,AMD,Power, Itanium), Sun, AIX, HP-UX ОК. Я не понимаю почему конкретные параметры железа нельзя учитывать на других платформах Можно, только для этого код надо будет оптимизировать для каждого сочетания железяка/операционная система. Всяко легче и более эффективнее писать под что-то одно. Народ сейчас, похоже, заинтересовала другая тема - "Как вообще массивно-параллельные системы могут быстро работать"? Видите, какое удивление в студии? С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.02.2005, 15:06 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
Константин ЛисянскийНарод сейчас, похоже, заинтересовала другая тема - "Как вообще массивно-параллельные системы могут быстро работать"? Видите, какое удивление в студии?То, что они могут работать быстро - не странно. Странно что они могут работать быстро обрабатывая данные так, как вы рассказываеете. :) Я вот по прежнему не могу понять почему для того чтобы обсчитать какой нибудь агрегат нельзя на каждом узле обсчитать его на основе тах данных, что есть на этом узле. А потом где то сложить промежуточные результаты и окончательно их досчитать. Вместо этого предлагается сначала выбрать данные по определенному условию, затем взаимно перекачать между узлами, записать там на диски и потом только обсчитать агрегат уже по перегруппированным кускам данных. Вот в этом месте картинка как-то не складывается :) Почему такая глобальная перекачака данных быстрее, чем выборка на каждому узле и пересылка результатов? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.02.2005, 15:28 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
Потому-что диски гораздо медленнее чем сеть. Как это дико не звучит. Для того что-бы забить гигабитный ethernet читая файл огромных размеров. Вам потребуется примерно 14 дисков. Кэш данных контроллера в таких задачах играет скорее отрицательную роль чем положительную. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.02.2005, 15:33 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
nkulikovПотому-что диски гораздо медленнее чем сеть. Как это дико не звучит. Для того что-бы забить гигабитный ethernet читая файл огромных размеров. Вам потребуется примерно 14 дисков. Кэш данных контроллера в таких задачах играет скорее отрицательную роль чем положительную.Как будто кто то спорит с тем, что диски медленнее, чем сеть? ПО моему пару постов назад я и сказал что диски штука медленная. Не в этом вопрос. Просто весь механизм можно разбить на несколько частей: 1. Чтение с дисков (медленно) 2. Пересылка по сети на другие узлы (очень быстро) 3. Запись на диск на другом узле (очень медленно) 4. Окончательно чтение на другом узле (медленно) Причем тут сеть? Да будь она хоть в миллион раз быстрее чем диск, чтение-запись с диска на диск никто не отменял. Поэтому и непонимание здесь в том, зачем делать две медленных и одну очень медленную операцию, вместо того, чтобы обойтись одной медленной? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.02.2005, 16:02 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
Константин Лисянский Терабайты на диски будут писаться в любом случае, поскольку промежуточные файлы понадобятся вне зависимости от того, какая архитектура у системы. На терабайты никайкой памяти и никакого кэша не напасёшься. Надеюсь, с этим спорить не нужно? Ну аочему же, не нужно, а форум на что? :) select r.code_source, count(distinct r.quantity_problem) from lia.cons_wares_rr r group by r.code_source по этим полям таблица не партиционированая по этим полям physical reads 48877 physical reads direct 48877 Всего прочитано блоков, без учета кеша 48877*8192/1024/1024= 381 MB session pga memory max 589824 Использовано памяти для сортировок sorts (disk) 0 sorts (memory) 15 (только память) sorts (rows) 5345247 строк отсортировано table scan blocks gotten 48878 блоков получено (см. выше) PX remote messages recv'd 56 PX remote messages sent 56 параметр parallel_execution_message_size = 2148 , 56*2148 =120288 байт обмен между нодами так что никаких спулов не видно с памятью я не уверен, но думаю если проанализировать параллельные сервера при выполнении, то затраты памяти там будут небольшие. (ораклоиды поправте меня, или подскажите чего еще посмотреть) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.02.2005, 16:06 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
381 mb - очень хорошо помещается в OЗУ моего ноутбука :) В приципе на TPC-C первое место занимает конфигурация с 2 ТБ OЗУ. Но если мы говорим о ХД размером от терабайта то буфферные пулы там не большие помощники ибо если работает, не один запрос а хотя бы с 10-ок. И каждый сканирует пол БД то все эти данные ты в кэш не запихнешь. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.02.2005, 16:24 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
Я же говорю, что память не расходуется, на эту операцию, и трафика между нодами нету. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.02.2005, 16:37 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
BirkhoffПричем тут сеть? Да будь она хоть в миллион раз быстрее чем диск, чтение-запись с диска на диск никто не отменял. Поэтому и непонимание здесь в том, зачем делать две медленных и одну очень медленную операцию, вместо того, чтобы обойтись одной медленной? При массовых операциях на одном узле работает не один диск, а около 10, причем параллельно. Использование собственного железа позволяет сбалансировать проиводительность дисковой подсистемы, пропускную способность комутатора и процессорную мощность узлов. Поэтому здесь нельзя утверждать, что какая-то операция заведомо быстрее, а какая-то медленнее. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 19.02.2005, 00:09 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
Андрей Прохоров При массовых операциях на одном узле работает не один диск, а около 10, причем параллельно. Ну что за аргументы, элементарным страйпингом добивается параллельная работа многих дисков, и что? Вопросы стоят о том как параллелятся задачи в террадате, особенно между большим количеством узлов. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 08:48 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
DimaRНу что за аргументы, элементарным страйпингом добивается параллельная работа многих дисков, и что? Расскажите, пожалуйста, как данные, считанные с одного логического устройства (партишона) со страйпингом могут быть параллельно обработаны? Желательно со сслыками на документацию. DimaRВопросы стоят о том как параллелятся задачи в террадате, особенно между большим количеством узлов. Минимальная единица паралелизма - это AMP, который управляет одним или двумя зазеркаленныи дисками. Распределение данных между AMP-ами обуспечивается при помощи hash-алгоритма. Типичная конфигурация 8-12 AMP-ов на узле. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 10:08 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
"При массовых операциях на одном узле работает не один диск, а около 10, причем параллельно." to Андрей Прохоров Извиняюсь, неправильно понял "Минимальная единица паралелизма - это AMP, который управляет одним или двумя зазеркаленныи дисками. Распределение данных между AMP-ами обуспечивается при помощи hash-алгоритма. Типичная конфигурация 8-12 AMP-ов на узле." А можно поразвернутей, интересно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 10:19 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
При массовых операциях на одном узле работает не один диск, а около 10, причем параллельно. Типичная конфигурация 8-12 AMP-ов на узле." Сколько процессоров в такой типичной конфигурации на 1 узле? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 10:25 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
В современных узлах по 2 интеловских процессора. Раньше было больше. Например, система 5100 имела узлы по 16 процессоров (Pentium Pro 200). С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 12:09 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
BirkhoffТо, что они могут работать быстро - не странно. Странно что они могут работать быстро обрабатывая данные так, как вы рассказываеете. :) Я вот по прежнему не могу понять почему для того чтобы обсчитать какой нибудь агрегат нельзя на каждом узле обсчитать его на основе тах данных, что есть на этом узле. А потом где то сложить промежуточные результаты и окончательно их досчитать. Вместо этого предлагается сначала выбрать данные по определенному условию, затем взаимно перекачать между узлами, записать там на диски и потом только обсчитать агрегат уже по перегруппированным кускам данных. Вот в этом месте картинка как-то не складывается :) Почему такая глобальная перекачака данных быстрее, чем выборка на каждому узле и пересылка результатов? Я по-моему, уже приводил математические выкладки относительно распараллеливания. Всё основывается на том, что операция сортировки выполняется за время, пропорциональное N*logN, где N- количество записей в таблице. Операция же перераспределения данных абсолютно линейна, то есть пропорциональна количеству записей в таблице. Соответственно, разбивая задачу на более мелкие кусочки мы выигрываем на нелинейной части. Понятное дело, что существует N, при котором будет выгоднее сделать финальную обработку на одном узле, избегая перераспределения. Но это справедливо при небольших значениях N. Это, кстати показывают ребята в статье, ссылку на которую я привёл выше. Ещё раз рекомендую ознакомиться с ней. Это должно помочь снять некоторые вопросы. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 12:32 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
Константин, По моему до меня дошло :) По крайней мере, я понял принцип. Все равно странно, что он работает, но это может быть в сиду непривычности идеи. :) А вот когда происходят перераспределения данных между узлами - на каждый узел попадает копия данных, которая после отработки запроса удаляется? Или она там сохраняется? Что произойдет если следующий пользователь захочет выполнить примерно такой же запрос? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 13:03 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
авторА можно поразвернутей, интересно. Постараюсь в общих чертах. За подробностями, лучше смотреть по ссылке Константина. При создании каждой таблицы у нее определяется Primary Index (PI). Это может быть первичный ключ, а может быть и др. колонка, имеющая значительное количество отличных значений. Для каждого значения этой колонки вычисляет значение хэш функции. Первые 16 бит используются для определения AMP-а, где будет храниться запись. Для этого используется таблица, где для каждого из 64k значений хранится номер AMP-а, куда попадут записи с таким значением. На дисковом пространстве AMP-е используется еще несколько хэш таблиц для быстрого доступа к записи по хэш значению. AMP - обеспечивает всю обработку данных, которые находятся под его управлением. Функционирование нескольких AMP-ов на одном узле обеспечивает параллелизм ввода-вывода и обработки полученных данных внутри одного узла. Межузловой параллелизм координируется за счет железа и софта BYNET, а также компоненты Parsing Engine. Партишонинг внтури AMP-а обеспечивает сокращения количества просматриваемых записей при доступе не по хэш значению за счет Partitioning Elimination. Внешне механика похожа на использование одновременно hash & list partitioning в Oracle. Однако есть существенные отличия: 1) DDL и скрипты быстрой загрузки-выгрузки не зависят от аппаратной конфигурации системы, т.е. количества узлов, особенностей дисковой подсистемы. 2) Равномерность распределения данных при любом числе узлов. В Oracle придется использовать кол-во узлов кратное степени 2-ки (Так указано в доке по 10gR1). 3) Хэш, т.е. Primary Index обеспечивает не только распределение данных, но быстрый поиск записи по хэш значению. (Просьба не сравнивать с B-tree индексом по партишону, рассматривалось выше). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 13:53 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
BirkhoffПо моему до меня дошло :) По крайней мере, я понял принцип. Ура! Я объяснял, как мог. Сорри, что с первого раза не сумел. BirkhoffВсе равно странно, что он работает, но это может быть в сиду непривычности идеи. :) Сам удивляюсь :) BirkhoffА вот когда происходят перераспределения данных между узлами - на каждый узел попадает копия данных, которая после отработки запроса удаляется? Или она там сохраняется? Что произойдет если следующий пользователь захочет выполнить примерно такой же запрос? Перераспределённая копия таблицы остаётся живой, пока в ней существует необходимость в пределах запроса (или группы запросов, если это multistatement request). Для другого пользователя таблица будет перераспределяться заново. Ведь за время между двумя запросами она могла измениться, не так ли? Мы же много пользовательскую среду рассматриваем. 2 DimaR: Я, честно говоря, немного не понял, что Вы хотели показать своим примером. Поясните, пожалуйста. Если Вы хотите показать, что для сортировки не используется диск, то попробуйте запустить с десяток таких запросов параллельно, как рекомендует Николай. Посмотрите, что у Вас получится, когда будут переключаться контексты между пользователями. Скорее всего, будет своп на диск в большом количестве. При этом свопится будет вся память процессов. При обратном переключении надо будет это всё опять с дисков читать в память. В случае, если сортировка использует активно использует диски, в многопользовательской среде это будет работать лучше, поскольку операций чтения и записи будет выполняться меньше. Это мои соображения. Возможно, я не прав. Если так, поправьте, пожалуйста. DimaRНу что за аргументы, элементарным страйпингом добивается параллельная работа многих дисков, и что? Данные мало размазать, их ещё надо параллельно обрабатывать. Речь идёт о том, что данные должны быть привязаны к единицам параллелизма, а этого, на мой взгляд, простым страйпингом не добиться. DimaRВопросы стоят о том как параллелятся задачи в террадате, особенно между большим количеством узлов. Вроде бы, принцип я уже объяснял - равномерно размазываем каждую таблицу путём хэширования между всеми узлами. Чем больше узлов - тем быстрее работает система, поскольку кусочки таблиц, расположенные на каждом узле становятся меньше. Мы уже обсудили тут и поняли, что распараллеливание позволяет быстрее выполнять операцию сортировки. Эта операция, кстати, является базовой для большинства алгоритмов обработки данных. Например, большинство алгоритмов джойнов основаны на предварительной сортировке данных. Вот и всё. Остальное, в принципе, детали реализации. Которые, кстати, я готов тоже в меру своих возможностей описать. Только просьба - задавайте вопросы немного поконкретнее. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 14:16 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
Константин, Спасибо за объяснения. А есть ли какая нибудь теория, когда внедрение Терадаты опроавдано? Ведь сейчас уровень железа достиг таких высот, что на обычном 4х процессорном сервере с "обычным" дисковым массивом, большим объемом памяти и "обычной" реляционной базой можно крутить телекомовские объемы данных. А у обычных пользователей запросы и вовсе гораздо проще. Не получается ли так, что закон Мура сводит на нет преимущества Терадаты в реальных проектах? Вернее сказать, то, что сферы применения найти можно я уверен, но может этих сфер становится меньше? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.02.2005, 16:44 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
Реальные телекомовские объемы... • Approximately 150 million Call Detail Records (CDRs) are loaded daily, and an equivalent number are deleted • Rolling 60 days of CDR data • 4.5 Billion transactions per day • 7,000 customer care users • Available 24x7x365, never have to REORG Конфигурацию сервера не подскажете???? :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.02.2005, 15:35 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
nkulikovРеальные телекомовские объемы... • Approximately 150 million Call Detail Records (CDRs) are loaded daily, and an equivalent number are deleted • Rolling 60 days of CDR data • 4.5 Billion transactions per day • 7,000 customer care users • Available 24x7x365, never have to REORG Конфигурацию сервера не подскажете???? :)Дык я про это и говорю. Конечно если взять какой нибудь France Telecom или наш MTS тот же, там будут подобные объемы. Но и там Oracle стоит к примеру. Справляется. Но сколько таких? А тем более, сколько таких в России? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.02.2005, 15:51 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
И вот еще вопрос. Если принять во внимание что разослать по ущлам данные и потом пересичтать будет быстрее, чем пересчитать на каждом узле без пересылки, какое результируещее время отлика? Какой порядок кремени отработки средних запросов? Секунды? Десятки секунд? Минуты? Десятки минут? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.02.2005, 15:54 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
BirkhoffКонстантин, Спасибо за объяснения. А есть ли какая нибудь теория, когда внедрение Терадаты опроавдано? Ведь сейчас уровень железа достиг таких высот, что на обычном 4х процессорном сервере с "обычным" дисковым массивом, большим объемом памяти и "обычной" реляционной базой можно крутить телекомовские объемы данных. А у обычных пользователей запросы и вовсе гораздо проще. Не получается ли так, что закон Мура сводит на нет преимущества Терадаты в реальных проектах? Вернее сказать, то, что сферы применения найти можно я уверен, но может этих сфер становится меньше? Внедрение Терадаты оправдано там, где нужно построить хранилище (витрину) данных для эффективной обработки больших объёмов данных, выполнения сложных аналитических запросов в многопользовательской среде, там, где требуется высокая надёжность и хорошая масштабируемость. Любое более-менее серьёзное хранилище данных выдвигает все эти требования. Терадата не работает с "необычными" дисковыми массивами. Это стандартные SCSI или FC дисковые массивы. Например EMC, или дисковые массивы NCR (OEM, производителя навскидку не вспомню). Что такое "обычная" реляционная база данных? SQL стандарта ANSI 99, возможность подключиться по ODBC, JDBC, CLI. Всё это есть в Терадате. Это - обычная реляционная СУБД. Просто она затачивалась под определённые задачи. Что касается телекомовских объёмов данных и четырёхпроцессорных систем - это, на мой взгляд заблуждение. Терадатная система в Vodafon Germany весит под 100 тонн. Там что-то порядка 160 узлов. Систему активно используют порядка 4 тысяч пользователей. Сомневаюсь, что "обычная" СУБД на 4-процессорном сервере сможет это всё обрабатывать. Закон Мура касается скорости процессоров. СУБД - системы, в основном, дисковые (а Терадата - тем более). Там закон Мура не действует (наверное, в силу наличия механических частей). Скорость работы дисков растёт не так стремительно. Сфера применения Терадаты не только не сужается, но и расширяется. Скорость роста количества данных на планете опережает темпы развития СУБД. Возьмите, например, технологию RFID. После её введения объёмы данных, генерируемые на всём пути прохождения товара от производителя до потребителя увеличатся, как минимум, на порядок. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.02.2005, 23:48 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
НиколайРеальные телекомовские объемы... • Approximately 150 million Call Detail Records (CDRs) are loaded daily, and an equivalent number are deleted • Rolling 60 days of CDR data • 4.5 Billion transactions per day • 7,000 customer care users • Available 24x7x365, never have to REORG Конфигурацию сервера не подскажете???? :) А Вы это откуда взяли? С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.02.2005, 23:53 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
BirkhoffКонечно если взять какой нибудь France Telecom или наш MTS тот же, там будут подобные объемы. Но и там Oracle стоит к примеру. Справляется. По поводу справляется во Франс Телеком - Вы знаете с чем справляется? С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 22.02.2005, 23:57 |
|
||
|
Что за зверь такой Teradata
|
|||
|---|---|---|---|
|
#18+
BirkhoffИ вот еще вопрос. Если принять во внимание что разослать по ущлам данные и потом пересичтать будет быстрее, чем пересчитать на каждом узле без пересылки, какое результируещее время отлика? Какой порядок кремени отработки средних запросов? Секунды? Десятки секунд? Минуты? Десятки минут? Ещё разок взгляните на свой вопрос. Не кажется, что на него мне трудно будет ответить. На этом форуме, есть только один человек, у которого все запросы за 5 секунд выполняются. Сами понимаете, всё зависит от того, какие запросы. Например, тактические запросы могут выполняться за доли секунды. Это небольшие запросы типа OLTP, но поступающие в большом количестве. Бывают сложные запросы, которые могут выполняться минуты, десятки минут и часы. "Средний запрос" трудно себе представить. Не пинайте сильно, не смогу на этот вопрос ответить достоверно. С уважением, Константин Лисянский http://lissianski.narod.ru ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 23.02.2005, 00:02 |
|
||
|
|

start [/forum/topic.php?fid=49&msg=32923487&tid=1871718]: |
0ms |
get settings: |
7ms |
get forum list: |
15ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
55ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
69ms |
get tp. blocked users: |
1ms |
| others: | 223ms |
| total: | 388ms |

| 0 / 0 |
