|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Добрый день! Есть конфигурация кластера на VMware 6.5 (железо Proliant Gen10 (BladeSystem c7000) + 3PAR через FCOE на hp flexfabric). Гоняю на скорость IO две конфигурации Oracle DB11g на виртуальных машинах. Одна - windows server 2012 R2 (controller LSI3000) на 3PAR лежит на SSD-полке (типа production), вторая - OEL7.5 RAC 2-node (controller PVSCSI) на 3PAR лежит на 10000-ках (в raid 200 штук, пока типа тест). Гоняю и никак не могу разогнать на сколько-нибудь приличные скорости. Винда на ССД-ах показывает максимум 2Гбит (не Гбайт), RAC выше 1 Гбит не выдает. Железячники разводят руками, мол у них везде 10 и 20, так что типа "проверяй дрова, не те поставил". А я уже проверил - на RAC точно все по книжке - и vmdk, и independent, и отдельный PVSCSI. Поменял elevator на noop (был deadline) - дало прирост примерно 10%, но все равно цифры даже порядком не сходятся. Может у кого что-то подобное творилось? Мне на данном этапе надо доказать железячникам (и вмварьщикам), что "нужные дрова на месте", буду рад любой помощи в этом вопросе! ... |
|||
:
Нравится:
Не нравится:
|
|||
04.06.2018, 14:17 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
PyroTechnicOEL7.5 RAC 2-node (controller PVSCSI) на 3PAR лежит на 10000-ках (в raid 200 штук, пока типа тест). Гоняю и никак не могу разогнать на сколько-нибудь приличные скорости.Что гоняете-то? лысого? Количество шпинделей же оно больше не про скорость, а про throughput ... |
|||
:
Нравится:
Не нравится:
|
|||
04.06.2018, 17:09 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
PyroTechnic, прогоните сначала синтетику, дисковую (IOmeter или что больше нравится) и сетевую (iperf, например). Ну и по конфигурации железа интереснее начинка блейда, в частности, - что там за контроллеры на сеть и SAN, чем модель шасси с флексами :) ... |
|||
:
Нравится:
Не нравится:
|
|||
04.06.2018, 17:47 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Добрый день! У нас примерно такая же проблема, но это где-то в связке vmware-3Par Если делать синхронную запись блоками(например с помощью dd) по 8к(как обычно БД пишет) - скорость будет где-то 10-15 мбйт/сек если увеличить размер блока до 1 Мб или больше - то вроде как со скоростью записи все нормально Вот такая еще мысль - если запустить 10(20) виртуалок и на каждой запустить запись - то суммарная скорость по всем будет 100-150(200-300) мбайт/сек. Т е такое впечиатление , что независимо от того сколько у тебя логических дисков на виртуалке(даже если разные контроллеры) vmware для них (для конкретной виртуалки) использует одну очередь ввода/вывода Если несколько виртуалок - для каждой из них своя очередь ввода/вывода Мы обращались в техподдержку vmware и hp - но так ничего вразумительного и не получили В результате на БД выставили *.filesystemio_options='ASYNCH' *.disk_asynch_io=true и redo положили на ssd Самое интересное, что если в качестве хранилки использовать MSA и ли DS3400 - скорость записи на них в 3 раза выше Если найдете что-то - напишите сюда ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2018, 15:03 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
landyЕсли делать синхронную запись блоками(например с помощью dd) по 8к(как обычно БД пишет) - скорость будет где-то 10-15 мбйт/сек если увеличить размер блока до 1 Мб или больше - то вроде как со скоростью записи все нормально Если я правильно понимаю, FCOE это over Ethernet А у Ethernet latency совершенно не маленькое. IMHO ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2018, 15:33 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Наверное Но у нас подключено по FC ... |
|||
:
Нравится:
Не нравится:
|
|||
05.06.2018, 15:40 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
landyДобрый день! У нас примерно такая же проблема, но это где-то в связке vmware-3Par Если делать синхронную запись блоками(например с помощью dd) по 8к(как обычно БД пишет) - скорость будет где-то 10-15 мбйт/сек dd пишет синхронно в один поток, никогда не меряйте dd-й . возьмите fio и например 8 потоков и с глубиной 32. fio -name iops -rw=readwrite -bs=1M -size=5G -iodepth=20 -runtime=400 -directory fio -ioengine libaio -direct=1 --max-jobs=8 -size= чтобы был раз в 50 больше кеша массива fio -name iops -rw=randread -bs=8K -size=5G -iodepth=20 -runtime=400 -directory fio -ioengine libaio -direct=1 --max-jobs=8 ... |
|||
:
Нравится:
Не нравится:
|
|||
06.06.2018, 05:18 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Ну и что? Запустить в 10-20 терминаалах параллельно - получим 10-20 медленных "потоков". Зачем? Ну например эмулируем работу arc - архивации redologs - он работает в один поток Один redo - один archlog. Сейчас не помню уже - но когда делал трассировку(strace), выяснил что на vmware он пишет блоками по 64К(16К ???) Если не изменяет память - при открытии arclog для копирования идет запрос(или установка большого блока) к устройству о максимальном размере блока с которым можно работать(bsize в терминах dd) - драйвер возвращает что не поддерживается, и тогда процесс arc пишет маленькими блоками. Так что вероятнее всего проблемы в драйвере от vmware Если, как я писал, в dd установить bsize=1M и выше - то все пролетает очень быстро Т е при некоторых кейсах на высоко нагруженной системе можно получить очень большие тормоза и проблемы Т е проблема не в одном потоке - а где-то рядом Почему система энтерпрайз уровня работает медленнее чем система начального уровня на тупых копированиях одного файла? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.06.2018, 06:17 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
>Зачем? Ну например эмулируем работу arc - архивации redologs - он работает в один поток это не важно один поток или не один. REDO может записать асинхронно весь редо-буфер (по умолчанию буфер 256к) за раз (блоками). dd пишет 4 кб (bs) и ждет ответа записано, реальные приложения не ждут, они пишут блоками пока не исчерпают свой собственный буфер или пока не заполнится буфер блочного устройства. Т.е. надо выставить в устройстве приемлимую глубину очереди которую может прожевать ваш массив за разумное время /sys/block/*/device/queue_depth /sys/block/*/queue/nr_requests и проверить что обработкой прерываний занимаются все cpu, потому что на млн. iops все io упрется в один cpu . в общем надо на синтетике fio сначала разобраться где жопа (я однажды все вылечил заменой опт. линка) и какие пределы для rand и seq . И надо не ждать от рандомных маленьких блоков чудес throughput, жесткий диск рандомно может прочитать 100-150 блоков, а последовательно дофига, писать же рандомно можно с очуменлой скоростью в кеш массива. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.06.2018, 15:42 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Так когда архивируется redolog он по факту и пишется в кэш массива Но только что-то очень медленно И поддержка ничего вразумительного не сказала ... |
|||
:
Нравится:
Не нравится:
|
|||
06.06.2018, 16:48 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
В новых версиях (с 11.2, вроде) он не просто пишется "как читается" большими блоками, а старается полностью переформатировать лог, избавляясь от wastage space -- в результате этого archivelog как правило размером намного меньше чем online redolog В первую очередь это зависит от количества CPU Мне пришлось увеличить ORL до 2G, чтоб архивные составляли хотя-бы 1.2-1.5G ... |
|||
:
Нравится:
Не нравится:
|
|||
06.06.2018, 17:45 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
landyТак когда архивируется redolog он по факту и пишется в кэш массива Но только что-то очень медленно И поддержка ничего вразумительного не сказалапроблема с записью в редолог или с архивацией редолога? И что значит медленно? Как это определили? ... |
|||
:
Нравится:
Не нравится:
|
|||
06.06.2018, 17:45 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
PyroTechnicVMware 6.5 если выкинуть вмваре и развернуть на чистом железе - результат вас сильно удивит. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2018, 09:01 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Alexey ZhidkovPyroTechnicVMware 6.5 если выкинуть вмваре и развернуть на чистом железе - результат вас сильно удивит. У него таки вполне нормальный вариант - 3PAR. Автор темы еще не догадывается, как криво настраивается работа например с xyratex. Автор темы - вот Вам для того, чтобы навести в нужную сторону Ваши мысли, две ссылки. ссылка номер 1 ссылка номер 2 Это я к тому, что тюнить должен приглашенный специалист, прошедший курсы. Дефолтные настройки у VMware совсем некошерные, увы. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2018, 10:07 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Andy_OLAPУ него таки вполне нормальный вариант - 3PAR. да без разницы что за хранилка. пробовали на vmware базы крутить, массивы были hi-end класса, все равно базы с высокой нагрузкой приходилось разворачивать на голом железе. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2018, 12:41 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Alexey Zhidkov, а причины недосточной производительности, очевидно, и не искали? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.06.2018, 15:09 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Scott TigerAlexey Zhidkov, а причины недосточной производительности, очевидно, и не искали? vmware не мое направление а те кто админят ее причину найти не смогли. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.07.2018, 15:58 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
кстати, чтиво по теме https://habr.com/post/414269/ «20 тысяч IOPS на узел — хорошие показатели с учётом задержек в 5 мс». Для OLTP — нет ... |
|||
:
Нравится:
Не нравится:
|
|||
09.07.2018, 16:53 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Alexey ZhidkovScott TigerAlexey Zhidkov, а причины недосточной производительности, очевидно, и не искали? vmware не мое направление а те кто админят ее причину найти не смогли. К вендору не обращались? ... |
|||
:
Нравится:
Не нравится:
|
|||
11.07.2018, 00:42 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Журавлев Денискстати, чтиво по теме https://habr.com/post/414269/ «20 тысяч IOPS на узел — хорошие показатели с учётом задержек в 5 мс». Для OLTP — нет На редкость спорная статья. Самый главный вопрос - а нафига? Хай-эндовый сторадж уменьшил латенси раз в 5 при прочих равных за 15 лет, никак не уменьшив стоимости, требовать субмиллисекундное латенси от SDS ценой в бюджетный паркетник - это просто глупо. ... |
|||
:
Нравится:
Не нравится:
|
|||
11.07.2018, 00:49 |
|
Проблемы со скоростью IO
|
|||
---|---|---|---|
#18+
Scott TigerЖуравлев Денискстати, чтиво по теме https://habr.com/post/414269/ «20 тысяч IOPS на узел — хорошие показатели с учётом задержек в 5 мс». Для OLTP — нет На редкость спорная статья. Самый главный вопрос - а нафига? Хай-эндовый сторадж уменьшил латенси раз в 5 при прочих равных за 15 лет, никак не уменьшив стоимости, требовать субмиллисекундное латенси от SDS ценой в бюджетный паркетник - это просто глупо. Читал поверхностно, но в целом статья в верном направлении. Он же больше не за железо говорит, а за "админов". Которые все файлы на один диск покладут (да еще и в RAID-5), а потом удивляются, что redo log'и стали узким местом. Хотя им бы и обычного бытового диска на 7200 вполне хватило бы, если бы никто не мешал. Вот и наблюдается картина, когда 20-40 дисков + сервер с кучей ядер, а скорость работы ниже, чем на разработческом дисктопе с одним диском и 4 Gb RAM ))) Вот __очень__ часто такое видел. После этого разработчикам остается только глупо таращится на такое диво дивное - профессионализм админов и покупателей железа зашкаливает. Распилить не маленький бюджет и получить производительность хуже ноутбуку. p.s. сейчас есть доступ по RDP на выделенный апп-сервер с 80 ядрами, Oracle Reports там работает со скоростью __ноутбука__, даже не дисктопа. Виртуалка у разработчиков с 2-мя ядрами и то работает в 4-10 раз быстрее. Причина не понятна, явно какой-то конфликт софта. Но переставить ОС и софт - никто не даст, за ОС и системный софт отвечает другая компания. ((( Так и живет ))) ... |
|||
:
Нравится:
Не нравится:
|
|||
11.07.2018, 13:54 |
|
|
start [/forum/topic.php?fid=25&msg=39658260&tid=1481215]: |
0ms |
get settings: |
9ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
45ms |
get topic data: |
11ms |
get forum data: |
2ms |
get page messages: |
58ms |
get tp. blocked users: |
2ms |
others: | 276ms |
total: | 425ms |
0 / 0 |