|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Работал себе сервер, работал и вдруг стали происходить следующие вещи: переодически(через 2-3 часа) сервер начинает бешенно крутить винтами при 0-ой загрузке процессора. При этом соответсвенно пользователи SQL сервера, запустившие запросы или пытающиеся это сделать получают отказ из-за таймаута. Соответсвенно, задачи на консоли сервера тоже не реагируют на нажатия клавиш. Все это длиться 10-15 минут, после чего дисковая активность прекращается и SQL опять начинает выполнять запросы. Конфигурация 2 PIII 733, RAM 1Gb, HDD Seagate 3x36Gb UW SCSI RAID5 Win2000 Adv.server with SP1, SQL2000 Enterprise Под SQL сразу выделено 750 Mb RAM, свопфайл 1,5Gb (по рекомендации хелпа) Что может вызывать такое странное поведение сервера? Причина в SQL-е или Win2000 ? И как можно отследить эту причину ? Помогите советом, пожалуйста !!! ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 14:05 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Если периодически, то посоветовал бы посмотреть, что делается в Agent Manager -е в ето время ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 15:36 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Скорее всего, дело действительно в жобах или какой-то репликации... Удобно будет посмотреть профайлером - сразу будет видно, кто и как. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 15:50 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
2DmitryGolubev Agent Manager - это Enterprise Manager или SQL Sevre Agent или еще что-то ? 2alexeyvg Репликаций на серевере нет, как и в прочем транзакций (это серевер для отчетов и поисков) джобы все запускаются ночью, а то что я описал происходит в рабочее время. Какие события мне отслеживать тогда в Profiler-е ? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 17:02 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Я имел в виду Management/SQL Server Agent Вы уверены что все джобы запускаются по графику? Еще у меня была ситуация, при определеных условиях (это был мой буг), зацикливалась stored procedure-a ( при точно, не помню, на 2х CPU загрузка была под 10-20% ), она завешивала сервер до timeout-a на большой таблице тоже на мин 10-15. Можно еше посмотреть в Task Manager-e NT Проветить Sheduler NT тоже не помешает Удачи ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 17:18 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Raid аппаратный или программный? Если программный - то причина в нем (было, проходили). ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 17:39 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Работ всего 2 - проверил, запускаются ночью. В шедулере системы тоже ничего нет. Пользовательские процедуры - проверил - не используют циклы, только селекты. И к тому же все запущенные процедуры не зависают, а просто истекает таймаут, т.е. если пользователь нажмет в клиентском приложении(которое вызывает процедуры) кнопку "Продолжить", то результат-то он получит, только вместо 10-15 секунд пройдет 10-15 минут. К Task Manager-у доступиться в момент "зависания" невозможно - система просто не реагирует на нажатия мыши и клавиатуры. Удалось получить сообщение об ошибке нр.845, когда подобная ситуация выпала на мой запрос, который я написал вручную в Query Analyzer-е. В хелпе про эту ошибку сказано, что она происходит "When under a heavy stress load or high I/O conditions, your system may produce this message." Но это и так видно Из резидентных программ от 3-их производителей есть только NAV 7.01 Enterprise Edition Все остальное - родное микрософтское. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 17:54 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
2Павел RAID аппаратный - DPT I2O SCSI/RAID adapter ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 17:57 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Ну да, глупое было предположение. При таком-то железе... А случайно не играл параметром "Max Async I/O"? Если нет, то увеличь его раза в три... ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 18:28 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Это в его BIOS-е или в его менеджерской утилите должно быть ? ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 19:01 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Все ниже приведенное из рассылки "mssql - дело тонкое" с сервера Subscribe.ru Подпишитесь, не раз помог!!! (огромное спасибо автору, почаще бы...) "*СОВЕТ* Настройка конфигурационного параметра SQL Server 7.0: "Max Async I/O" Как правило, значение по умолчанию параметра Max Async I/O достаточно только для дисковых подсистем нижнего класса. Для более продвинутых RAID - контроллеров с очень высокой пропускной способностью и обслуживающих большое количество дисков этого может оказаться недостаточно или просто возможности системы будут сдерживаться. Исключение составляет случай использования в качестве операционной системы Windows 95/98, которая просто не поддерживает асинхронный ввод - вывод. Оптимальный выбор значения Max Async I/O позволит серверу полностью отработать Checkpoint, до его следующего цикла и, при этом, не помешает выполнению параллельно исполняемых процессов/потоков. Microsoft предлагает следующее эмпирическое правило для установки максимального значения Max Async I/O, если Вы используете RAIDE с большим количеством дисков: "Умножьте число физических дисков, доступных для одновременного ввода/вывода на 2 или на 3, и полученное значение присвойте параметру Max Async I/O". После этого, наблюдайте средствами Performance monitor или Microsoft Management Console поведением дисковой подсистемы и очередей. Следите, что бы Checkpoint не монополизировал всю ширину, которая обслуживает дисковую подсистему." ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 19:19 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Ой, пардон 1000 раз. на предыдущий вопрос ни автор рассылки, ни тем более я в данном случае не ответили... Конечно же это параметр крнфигурации сервера, доступный, например, через процедуру sp_configure... ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 19:31 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Возможно, происходит динамическое изменение размера файла базы данных, либо Log-файла. Если В БД часто происходят операции Insert, а Delete редко, то база разрастается. Если, например, стоит автоматическое увеличение размера файла БД на 1МБ, то вполне возможно, что 1Мб хватает только на 3 часа. Операция изменения размера файла БД довольно дорогостоящая. Чтобы ее избегать, нужно задать размер файла БД и журнала транзакций заведомо большим. А автоматическое изменение размера задать не в абсолютой величине, а в процентах и побольше. Изменение размера файла БД может происходить не только при его переполнении, но и при освобождении его страниц, если стоит опция AutoShrink. Проверь параметры автоусечения файла. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.03.2001, 20:39 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Вначале нужно локализовать проблему, а не гадать. Для этого используйте не Профайлер, а Перфоманс монитор по операциям I/O и по своп - файлу. Определив, что является источником высокого дискового I/O, можно решать, как действовать дальше. Ну, а если гадать, то я бы больше грешил на своп файл (очень похоже), особенно, в сочетании W2K и SQL7/2K. Память - ресурс между ними разделяемый, а сервер баз данных штука прожорливая, всё время норовит сделать себе кеш побольше. При этом, бедный W2K остаётся "на подсосе" и начинает скидывать страницы на диск. Такой расклад уже разбирался в этой конференции. ... |
|||
:
Нравится:
Не нравится:
|
|||
03.03.2001, 14:16 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
2Павел К сожалению в SQL2000 "Max async IO" опции уже нет 2Garya Данная база обновляется 1 раз в месяц (основные таблицы). Все остальные добавления (в основном служебные таблицы) происходят редко. Основные обновления - это новые хранимые прцедуры и вьювы. Хотя опция Auto Shrink была действительно включена, сейчас ее выключил - посмотрим что будет. 2Александр Гладченко Я так понимаю в Перфоманс монитор нужно включит события для объекта PhysicalDisk, но какие события отслеживать ? 2All Путем лазания по менеджерской утилте для RAID контроллера было найдено, что не был включен Predictive Cache, сейчас эта опция включена с вариантом Write Through (второй вариант Write back). Могло ли это быть причиной проблемы ? Кроме того Stripe Size для дисков поставлен в 32Kb, может стоит его поменять на 64Kb - облегчит ли это жизнь SQL сервера ? ... |
|||
:
Нравится:
Не нравится:
|
|||
03.03.2001, 16:04 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
2Александр Гладченко >Ну, а если гадать, то я бы больше грешил на своп файл (очень похоже), особенно, в сочетании >W2K и SQL7/2K. Память - ресурс между ними разделяемый, а сервер баз данных штука >прожорливая, всё время норовит сделать себе кеш побольше. При этом, бедный W2K остаётся "на >подсосе" и начинает скидывать страницы на диск. Такой расклад уже разбирался в этой >конференции А что SQL сервер может выделять себе оперативную память свыше того предела, который ему задан через Enterprise Manager ? Я для сервера указал делить 1Gb RAM так - 750Mb для SQL2k, 250 для Win2k. Task Manager показывает что для sqlserv.exe выделено 725 876Kb, для sqlagent.exe 1 256 Kb, для sqlmangr.exe 748Kb. Вроде бы все остальное должно быть в распоряжении Win2k. Или есть еще процессы, которые относятся к SQL серверу ? ... |
|||
:
Нравится:
Не нравится:
|
|||
03.03.2001, 17:34 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Распределение памяти, мне кажется, выбрано правильно. SQL сервер, если ему задан верхний предел, чужую память забирать не должен, да Вы это и сами наблюдали. По идее, обоим памяти должно хватать, если только ничего другого на сервере не крутится. Микрософт не рекомендует включать опцию RAID контроллера Predictive Cache, для избежания коллизий с отложенной записью. Но обычно, кэш всётаки включают, иначе слишком тормозит дисковая система. Думаю, это могло быть причиной проблемы, т.к. кэш контроллера должен был сглаживать различия в скорости чтения/записи данных между ресурсами сервера (или ОС) и самим контроллером. Если кэша нет, то возможен вариант, когда операционка или SQL сервер выполняет массовую операцию в памяти, а потом результаты начинают отображаться в файлах на диске. Поскольку буферезации нет, это может выполняться долго и даже очень долго (в Вашем случае в буфере может поместиться таблица или индекс эдак на пол гигабайта. Представте, сколько он будет писаться на диск...) Что же касается Stripe Size, то я ставлю 64Kb и никогда ещё об этом не жалел. База у меня большая, так почему бы её не читать кусками побольше... Хотя тестов сравнения я не устраивал. Можно порыскать на сайте производителя Вашего контроллера, возможно Вы найдёте рекомендации на этот счёт. ... |
|||
:
Нравится:
Не нравится:
|
|||
04.03.2001, 13:05 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
а что в NT-шном Event Viewere в этот момент регистрируется. Есть ли ошибки или предупреждения? ... |
|||
:
Нравится:
Не нравится:
|
|||
04.03.2001, 22:22 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
По поводу отслеживания событий в Performance: Для начала, нужно определить, какой процесс у Вас загружает дисковую систему. Для этого в объектах выбирете Process, а в списке доступных процессов - sqlservr и другие, которые могут вызывать подозрения. В качестве возможного счётчика, для начала, я бы порекомендовал что-нибудь типа: IO Other Bytes/sec Счётчиков и процессов не много, так, что если сразу не наткнётесь на источник IO, пробуйте другие, хотябы методом перебора. У каждого счётчика есть пояснение, читайте их, что бы понять, нужно ли отслеживать этот счётчик. ... |
|||
:
Нравится:
Не нравится:
|
|||
05.03.2001, 09:46 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
A vdryg y tebya vint poletel t.e. nagrevaetsya disk naprimer (ili oxlazhdaetsya) i nemnogo krivoi stanovitsya i on ego shitat' ne mozhet i nachinaet clastery perenosit' v rezerv naprimer i zaodno che-nit' proveryat' tipa, mozhet eche chto slomaloc' kak-raz na 15 minyt raboty. a eche mozhet y tebya tipa backdoor, i k tebe navedyvaetsya raz v den' hacker i vcu bazy dannyx k sebe skachivaet. vot on kogda zhyzhzhat' nachnet - ty vyderni provoda iz network card - i prover' chego bydet. Ydachi DRY_GIN ... |
|||
:
Нравится:
Не нравится:
|
|||
06.03.2001, 10:02 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
После включения опции Predictive Cache на RAID-контроллере и отключения опции Autoshrink для базы тормоза изчезли. Не знаю что из этого было точной причиной торможения (проверять обратно не хочется ). Вроде бы с одной стороны переиодичность события указывает больше на Autoshrink, но с другой стороны Cache мне кажется тоже может откалывать такие штучки (вернее система при его отсутствии) Спасибо всем, кто откликнулся !!! 2DRY_GIN Т.к. RAID аппаратный, то его утилита и следит за состоянием дисков. Она во всяком случае ничего подобного не сообщала. А насчет хакеров - тут база такого объема, что одно бакопирование через UW SCSI занимает 3,5 часа, а тут происходит все гораздо быстрее. Да и запросы бегут по 30-40 минут. Но поведение системы при этом совершенно другое, например в том, что переключение задач на консоле сервера происходит без явных тормозов. Хотя, конечно, не лишено основания. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.03.2001, 11:07 |
|
Объясните, что происходит с сервером?
|
|||
---|---|---|---|
#18+
Всё это очень сильно похоже на фрагментацию диска на котором лежит база данных и, видимо, другие файлы. Я очень сильно надеюсь, что у Вас на этом же диске не лежит журнал транзакций. При автоматическом росте файлов БД и журналов на одном диске получается такая фрагментация, что загонит в ступор даже самое навороченное железо, особенно при массовой вставке. ... |
|||
:
Нравится:
Не нравится:
|
|||
06.03.2001, 13:49 |
|
|
start [/forum/topic.php?fid=46&fpage=3588&tid=1827252]: |
0ms |
get settings: |
9ms |
get forum list: |
16ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
28ms |
get topic data: |
13ms |
get forum data: |
3ms |
get page messages: |
63ms |
get tp. blocked users: |
1ms |
others: | 249ms |
total: | 390ms |
0 / 0 |