|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
uphttp://infocenter.sybase.com/help/topic/com.sybase.dc00768_1501/html/ase_ce_ug/ase_ce_ug3.htm ого, действительно shared-disk cluster. и блокировки и кеш синхронизует, красота 2sysmaster если появится - будет интересно посмотреть. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.01.2008, 19:31 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
снова RAC опередел самую навороченную smp железячку 4 ноды Oracle/Sun Fire X4470, 4 Xeon X7560 processors / 32 cores показали 221020 SAPS IBM Power System 780, 8 Processors / 64 Cores паказал 202180 SAPS ЗЫ. крупнее 780, System 795 с 256-cores как я понял только пару дней назад начали продавать. ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2010, 12:39 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
кстати у RAC response time уже лучше чем у smp: Average dialog response time: 0.86 seconds (RAC) Average dialog response time: 0.98 seconds (IBM) ... |
|||
:
Нравится:
Не нравится:
|
|||
22.09.2010, 12:43 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
vybegalloYo!!2vybegallo уважаемый, может вы разбираетесь в балете или замечательный собеседник на тему живописи, но разговора по RAC у нас с вами не получется. ну нечего мне ответить о ораспределении даных по нодам ... Да это я уже понял. Грабель вы еще и издали не видали. Жвль, что действительно специалисты по RAC себя не обнаруживают - хотелось послушать людей от сохи, теоретиков мне и коллеги ЧАЛа больше чем достаточно. Естественно. Вы же не способны ни один вопрос обсуждать по существу:) А с людьми от сохи, конечно, удобнее обсуждать форму, а не содержание:) Один человек от сохи расскажет почему лучше А (потому что в глаза не видел B), а другой - наоборот:) ... |
|||
:
Нравится:
Не нравится:
|
|||
24.09.2010, 19:06 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
Почитал, остался в непонятках --- какой прок от обсуждения "абстрактной" масштабируемости, если разные задачи ведут себя совершенно по-разному при переходе с одной ноды на кластер, при росте кластера, да даже и просто при добавлении ядер. Более того, у нас были "бредовые" с точки зрения любого учебника случаи, когда "кластер" из 8 нод на одном восьмиядерном ящике и 1/8 памяти для каждой ноды обгонял просто "нормальную" базу на той же машине. А вообще у нас самый большой экспериментальный кластер был 200*(Quad Xeon / 16Gb RAM), сейчас самый большой постоянно доступный публично --- 8 * (2*Quad Xeon / 32Gb RAM). Virtuoso Cluster Edition, разумеется. Исходя из того, что в Оракле не глупее нас люди сидят, не предвижу никаких необычных проблем, скажем, с RAC на 32-64 машинах. ... |
|||
:
Нравится:
Не нравится:
|
|||
30.09.2010, 23:23 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
iv_an_ruБолее того, у нас были "бредовые" с точки зрения любого учебника случаи, когда "кластер" из 8 нод на одном восьмиядерном ящике и 1/8 памяти для каждой ноды обгонял просто "нормальную" базу на той же машине. Согласитесь, это всё же означает, что в "нормальной" базе стоит что-то докрутить (хотя бы автоматическое распадание на восемь восьмушек). ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2010, 21:01 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
softwareriv_an_ruБолее того, у нас были "бредовые" с точки зрения любого учебника случаи, когда "кластер" из 8 нод на одном восьмиядерном ящике и 1/8 памяти для каждой ноды обгонял просто "нормальную" базу на той же машине.Согласитесь, это всё же означает, что в "нормальной" базе стоит что-то докрутить (хотя бы автоматическое распадание на восемь восьмушек).Рацуха, конечно, интересная, осталось только придумать, как при смене профиля загрузки то распадаться на восьмушки то слипаться назад, и всё это не прерывая обслуживание клиентов. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2010, 23:28 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
В общем-то можно, но вряд ли это оптимальный путь. А вот где, почему и начиная с какого предела "нормальная" база тормозит по сравнению с "восьмушками" - имхо стоит тщательно изучить. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.10.2010, 23:37 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
iv_an_ru Более того, у нас были "бредовые" с точки зрения любого учебника случаи, когда "кластер" из 8 нод на одном восьмиядерном ящике и 1/8 памяти для каждой ноды обгонял просто "нормальную" базу на той же машине. если восьмиядерный ящик был нума то ничего удивительного. ... |
|||
:
Нравится:
Не нравится:
|
|||
03.10.2010, 02:10 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
softwarerВ общем-то можно, но вряд ли это оптимальный путь. А вот где, почему и начиная с какого предела "нормальная" база тормозит по сравнению с "восьмушками" - имхо стоит тщательно изучить.Да нечего там было изучать. Очень большая база с RDF и много-много юзеров, каждый из которых ковыряется read-only в одних и тех же "очень активных" данных плюс каких-то неповторяющихся "непопулярных". Под Linux, а у него есть противная особенность: просто вход и выход из мьютекса не стоят почти ничего, а вот начало ожидания на мьютексе стоит примерно столько же, сколько целая выборка строки по ключу. В случае кластера проблемы с мьютексами уменьшились настолько, что экономия перевесила даже IPC. Поскольку для такого эффекта нужно, чтобы сервер "лёг на полку", не справляясь с нагрузкой, на практике такой сценарий просто не должен встречаться. (Потом появились деньги, и вместо одного ящика поставили 8. Как раз вовремя, потому что база подросла до 2.5e10 фактов, ну и юзеров ещё больше стало.) ... |
|||
:
Нравится:
Не нравится:
|
|||
03.10.2010, 08:41 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
Yo.! крупнее 780, System 795 с 256-cores как я понял только пару дней назад начали продавать.ну вот появился результат теста для 795 - 384330 попугаев ... |
|||
:
Нравится:
Не нравится:
|
|||
10.10.2010, 18:42 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
Андрей ПанфиловYo.! крупнее 780, System 795 с 256-cores как я понял только пару дней назад начали продавать.ну вот появился результат теста для 795 - 384330 попугаев И опять RAC bite the dust ! :) ... |
|||
:
Нравится:
Не нравится:
|
|||
13.10.2010, 10:36 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
Выбегалло И опять RAC bite the dust ! :) поставят чуть крупнее ноды и снова будут впереди. например 8-сокетов, а не 4. или как в прошлый раз 6 нод System 780 ... |
|||
:
Нравится:
Не нравится:
|
|||
13.10.2010, 17:21 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
Yo.!поставят чуть крупнее ноды и снова будут впереди. например 8-сокетов, а не 4. или как в прошлый раз 6 нод System 780 как в воду глядел: 740250 saps на 6 x Sun Fire X4800 M2, 8 processors / 80 cores Xeon Processor E7-8870, 2.40 GHz для сравнения самая большая железячка на сегодняшний момент: 688630 IBM Power 795, 32 Processors / 256 Cores POWER7, 4 Ghz т.е. RAC всего на 6 копеешных узлах промасштабировался дальше самой большой железячки ... |
|||
:
Нравится:
Не нравится:
|
|||
14.09.2011, 22:50 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
Yo.!Yo.!поставят чуть крупнее ноды и снова будут впереди. например 8-сокетов, а не 4. или как в прошлый раз 6 нод System 780 как в воду глядел: 740250 saps на 6 x Sun Fire X4800 M2, 8 processors / 80 cores Xeon Processor E7-8870, 2.40 GHz для сравнения самая большая железячка на сегодняшний момент: 688630 IBM Power 795, 32 Processors / 256 Cores POWER7, 4 Ghz т.е. RAC всего на 6 копеешных узлах промасштабировался дальше самой большой железячки Что значит "промасштабировался дальше", кривая масштабирования лежит ниже чем у IBM? Или в абсолютных величинах при прочих неравных? ... |
|||
:
Нравится:
Не нравится:
|
|||
14.09.2011, 22:58 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
промасштабировался дальшеЧто значит "промасштабировался дальше", кривая масштабирования лежит ниже чем у IBM? Или в абсолютных величинах при прочих неравных? в абсолютных. там товарищи в обсуждении выше утверждали, что RAC не сможет потянуть ту нагрузку, какую тянут взрослые SMP. а он не просто потянул, он переплюнул. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.09.2011, 23:15 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
Yo.!промасштабировался дальшеЧто значит "промасштабировался дальше", кривая масштабирования лежит ниже чем у IBM? Или в абсолютных величинах при прочих неравных? в абсолютных. там товарищи в обсуждении выше утверждали, что RAC не сможет потянуть ту нагрузку, какую тянут взрослые SMP. а он не просто потянул, он переплюнул. Товарищи сверху много обобщают. В задачах с интенсивным обменом данными действительно SMP пойдет дальше, тут принципиальные особенности. А сравнивать надо на равных CPU, RAM и дисковой подсистеме. Но если грамотно писать приложение и проектировать базу то в некоторых задачах RAC конечно сможет масштабироваться на сотни узлов. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.09.2011, 23:30 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
промасштабировался дальшеесли грамотно писать приложение и проектировать базу то в некоторых задачах RAC конечно сможет масштабироваться на сотни узлов.Кто б спорил. Я уже в нескольких топиках по разным поводам описал один свежий кластер у клиента: 120 * (Quad Xeon / 8Gb / 10 * 1Tb HDD) + 144 * (2 * Quad Xeon / 16Gb / 2 * 128Gb SSD) + 8 * (4 * 10-core / 1024Gb ) + хороший инфинибанд, Что из подзадач совсем хорошо по горизонтали раскидывается --- пихается в первую группу кластера, что похуже --- во вторую, что совсем никак (матерные обходы графов, скажем) --- на 8 самых толстых айбиэмовых ящиков. Попытки обойтись без этих 8 ящиков радости не принесли, хотя программеры там, уж поверьте на слово, _очень_ грамотные. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2011, 00:10 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
iv_an_ruпромасштабировался дальшеесли грамотно писать приложение и проектировать базу то в некоторых задачах RAC конечно сможет масштабироваться на сотни узлов.Кто б спорил. Я уже в нескольких топиках по разным поводам описал один свежий кластер у клиента: 120 * (Quad Xeon / 8Gb / 10 * 1Tb HDD) + 144 * (2 * Quad Xeon / 16Gb / 2 * 128Gb SSD) + 8 * (4 * 10-core / 1024Gb ) + хороший инфинибанд, Что из подзадач совсем хорошо по горизонтали раскидывается --- пихается в первую группу кластера, что похуже --- во вторую, что совсем никак (матерные обходы графов, скажем) --- на 8 самых толстых айбиэмовых ящиков. Попытки обойтись без этих 8 ящиков радости не принесли, хотя программеры там, уж поверьте на слово, _очень_ грамотные. Я так понимаю это единый гетерогенный виртузоный кластер, с инфинибандом 40 Гбит/сек. А у вас как организован протокол обмена данными по инфинибанду, это RDMA, который действительно Direct через контроллер памяти в обход CPU? И каков у вас характер нагрузки требующий айбиэмовские ящики, он диктует повышенные требования к маленьким задержкам или большой пропускной способности? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2011, 13:42 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
iv_an_ruпропущено... Кто б спорил. Я уже в нескольких топиках по разным поводам описал один свежий кластер у клиента: 120 * (Quad Xeon / 8Gb / 10 * 1Tb HDD) + 144 * (2 * Quad Xeon / 16Gb / 2 * 128Gb SSD) + 8 * (4 * 10-core / 1024Gb ) + хороший инфинибанд, Что из подзадач совсем хорошо по горизонтали раскидывается --- пихается в первую группу кластера, что похуже --- во вторую, что совсем никак (матерные обходы графов, скажем) --- на 8 самых толстых айбиэмовых ящиков. Попытки обойтись без этих 8 ящиков радости не принесли, хотя программеры там, уж поверьте на слово, _очень_ грамотные. Я так понимаю это единый гетерогенный виртузоный кластер, с инфинибандом 40 Гбит/сек. Он единый и гетерогенный, но под виртуозой там будет очень немного, порядка 16 "средних" ящиков, порядка 600Gb на дисках. Остальное --- разнообразные софтинки клиента, в основном самописные. А у вас как организован протокол обмена данными по инфинибанду, это RDMA, который действительно Direct через контроллер памяти в обход CPU?Мы только системные вещи юзаем, какой-то специальной поддержки именно инфинибанда в Виртуозе нет (равно как и "разумных" сетевых карт, SAN и т.п.). В наше оправдание могу сказать, что мы не мучаем ни IPC ни сеть кучами мелких пакетов, у нас туда-сюда бегают преимущественно большие буферы, причём процессы общаются "каждый с каждым", без "централизованных затыков". И каков у вас характер нагрузки требующий айбиэмовские ящики, он диктует повышенные требования к маленьким задержкам или большой пропускной способности?Я б так сказал: для каждого отдельного юзера важна как можно меньшая латентность, если задача векторизуется плохо, то время выполнения будет прямо пропорционально латентности. Мы б рады были взгромоздить всё на один толстый ящик вместо табуна более мелких, но тогда процы будут забиты, а две трети дорогущей памяти ящика будут простаивать вообще. Выходит, что 16 "средних" ящиков будут и дешевле и (для правильно написанных хранимок) ненамного хуже. Если юзеров много, то они "сообща" могут, конечно, и сеть перегрузить, но на практике нам даже двух гигабитных эзернетов хватает, чтобы восьмиядерный ящик не простаивал, загрузка вроде 1 min avg load user 670% sys 50% wa 2% id 0% получается легко. Если взять обычный "комодный кластер" из 6--8 восьмиядерных "комодных" ящиков с дублированием (т.е. 6--8 пар ящиков с идентичными фрагментами БД на дисках в каждой паре), то на каждой дешёвой интеловской мамке для рабочих станций обнаружится аккурат два порта по 1000. Можно взять два "комодных" 16-портовых свича по $130 с внутренней пропускной 32Gb/sec (или 24-портовых с внутренней 48Gb/sec), в один воткнуть все eth0 всех ящиков, в другой все eth1, и на этом всё (не считая аплинков и ящика для бэкапов). При этом, скажем, если расковырять 16-портовый свич, то обычно обнаружится, что это фактически два 8-портовых свича, соединённых двухпортовым свичом, поэтому в каждой паре идентичных ящиков первый ящик надо воткнуть в порт с 1 по 8, а второй --- с 9 по 16, минимизируя число мелкосхем, которые будут добавлять латентность (и риск убить пакет вообще). ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2011, 15:26 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
iv_an_ru, а можно узнать что за задачи решаются? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2011, 16:02 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
iv_an_ru , 1. Т.е. айбиэмовские ящики не под вашу систему брались? 2. Здесь понятно, движение в сторону гибкости, а не специализации. Предположительно значит задача не ставит необходимость в низколатентном доступе к большому количеству узлов для каждого запроса, при большом количестве запросов или пользователей. А получить все данные скопом в принципе выход. У вас через "преимущественно большие буферы" между узлами данные передаются скопом для одной записи, таблицы, запроса или нескольких запросов за один раз? 3. Процы забиваются из-за ожиданий на мьютексах или из-за чего? Просто я ещё ни разу не видел что-бы используя СУБД память простаивала. Собственно всегда используется под кэш дисковой подсистемы. Низкая латентность между узлами важна при низколатентном доступе пользователей по спец. протоколам или при сильном размазывании данных, т.е. большом количестве серверов. Допустим каждый простой запрос требует сбора данных с 20% серверов. Тогда не используя специализированных средств передачи между узлами получим общее падение производительности до 20%. (Здесь конечно принимаем крайний случай когда нагрузка на межнодовый запрос равна нагрузки простого запроса пользователя) Теперь если запросов не только много, но они ещё и относительно тяжелые, то потребуется сильнее размазывать данные. А значит увеличивая количество серверов сбор данных будет увеличиваться с 20% до 100%. Что и будет означать предел масштабирования. Дублирование серверов же хорошо для read only и плохо для write. Ну и оверхеды различных протоколов по сравнению с RDMA Infiniband конечно не маленькие. Латентность на RDMA можно достичь до 10мкс. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2011, 17:07 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
SergSuperiv_an_ru, а можно узнать что за задачи решаются?конкретно эта инсталляция будет под базу знаний, порядка 50 гигафактов, плюс RDB2RDF из некоторых "посторонних" баз данных. Эти "посторонние" базы скоро будут мигрировать с расположенного рядом "старого" кластера в этот "новый", после чего "старый" кластер плюс его standby вместе станут standby-ем для критической части "нового". Данные там в основном узко-специально-научные, поэтому являются для меня абсолютно тёмным лесом, даже если куски попадаются мне на глаза :) ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2011, 17:29 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
iv_an_ru , 1. Т.е. айбиэмовские ящики не под вашу систему брались?Нет, под толстые симуляции. 2. Здесь понятно, движение в сторону гибкости, а не специализации. Предположительно значит задача не ставит необходимость в низколатентном доступе к большому количеству узлов для каждого запроса, при большом количестве запросов или пользователей. А получить все данные скопом в принципе выход. У вас через "преимущественно большие буферы" между узлами данные передаются скопом для одной записи, таблицы, запроса или нескольких запросов за один раз?Для нескольких запросов (или ответов на них) в ходе исполнения одного или нескольких запросов. 3. Процы забиваются из-за ожиданий на мьютексах или из-за чего? Просто я ещё ни разу не видел что-бы используя СУБД память простаивала. Собственно всегда используется под кэш дисковой подсистемы.Процы заняты полезным делом. Но если ставить эту конкретную задачу на один ящик с терабайтом ОЗУхи, то считайте сами --- 50 гигафактов в сжатых колонках, примерно по 6 байт на факт, дадут 300 гигабайт. На диске будет вдвое больше, 600 гигабайт, потому что для каждой страницы будут лежать её копия до последнего чекпойнта плюс текущая версия, но буферизовать даже в идеальном случае всего 300 гигабайт. Остальные 700 гигов надо было бы бы отдать под что-нибудь, но avg load под "нас" хотелось бы от 60 и выше, а ядер и так всего 40. Если б нам на растерзание дали ящик, скажем, с 80 ядрами и 384 гигами ОЗУхи, мы б не отказались, а так совсем неразумно по деньгам. Тем более, что они хотят на нём прогнать BSBM / BIBM / TPC-H / RDF-H, и нам совсем не улыбается увидеть публичные отчёты с издевательски большими $/QMpH и $/QphH. Ну и оверхеды различных протоколов по сравнению с RDMA Infiniband конечно не маленькие. Латентность на RDMA можно достичь до 10мкс.Заплатят за допиливание --- прикрутим тот быстрый IPC, который они выберут. С удовольствием. Тем более что наш протокол восстанавливает ошибки сам, ему от нижнего слоя достаточно "UDP" без гарантий доставки и сохранения порядка, а не целого "TCP". ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2011, 17:49 |
|
Поговорим о масштабировании
|
|||
---|---|---|---|
#18+
iv_an_ruПроцы заняты полезным делом. Но если ставить эту конкретную задачу на один ящик с терабайтом ОЗУхи, то считайте сами --- 50 гигафактов в сжатых колонках, примерно по 6 байт на факт, дадут 300 гигабайт. А запросы тратят CPU больше всего на индексный поиск, агрегацию, скалярные функции или на внутренние нужды? iv_an_ruТем более, что они хотят на нём прогнать BSBM / BIBM / TPC-H / RDF-H, и нам совсем не улыбается увидеть публичные отчёты с издевательски большими $/QMpH и $/QphH. Если они это IBM, то ничего удивительного :) ... |
|||
:
Нравится:
Не нравится:
|
|||
15.09.2011, 18:36 |
|
|
start [/forum/topic.php?fid=35&msg=37440925&tid=1552615]: |
0ms |
get settings: |
7ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
38ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
62ms |
get tp. blocked users: |
1ms |
others: | 237ms |
total: | 380ms |
0 / 0 |