powered by simpleCommunicator - 2.0.59     © 2025 Programmizd 02
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Форумы / Informix [игнор отключен] [закрыт для гостей] / "Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
56 сообщений из 56, показаны все 3 страниц
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36043066
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
День добрый.

Есть БД на IDS 7.31 на SCO OSR 507. Трудится над OLTP 24х7. До 20ти запросов в секунду. Все запросы простые: выборка по PK, insert одной записи, update по индекс. полю.

Все бы хорошо, но БД начала периодически и без явных причин "подвисать". Т.е. в один прекрасный момент все приложения, которые работают с базой, блокируют свое дальнейшее выполнение при любом запросе на изменение данных в БД. Затем все одновременно (с точностью до 0.01 сек) продолжают свою работу.
Т.е. выглядит это примерно так:
1) что-то случается с БД в 12:00:00
2) С 12:00:00 по 12:00:05 все приложения делают запрос к БД и подвисают на нем.
3) С 12:00:05 по 12:00:25 вся система парализована.
4) В 12:00:25 все приложения отвисают.

Такие вещи происходят до 10 раз в сутки. В online.log только записи о КТ (0-2 сек), окончании очередного журнала и о бекапе журналов (2-7 сек).

База под репликацией HDR (!).

Вопроса насчет этого безобразия 2:
1) Кто-нибудь на основании этого описания и своего опыта может предложить возможную причину? Буду крайне признателен.
2) Как и чем мне вычислить такую ситуацию. Предполагаю, что нужно запустить какое-то периодическое считование счетчиков IDS и ОС, но не знаю что именно... Еще этим мониторингом нельзя мешать работе самой системы.

Вот еще: создается впечатление, что такие зависания наиболее вероятны после запроса UPDATE на несколько тыс. записей.

Заранее всем спасибо за помощь!
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36043299
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin
Есть БД на IDS 7.31

Более точно версию, пожалуйста.

IDS admin
блокируют свое дальнейшее выполнение при любом запросе на изменение данных в БД.
Затем все одновременно (с точностью до 0.01 сек) продолжают свою работу.
...
Такие вещи происходят до 10 раз в сутки. В online.log только записи о КТ (0-2 сек), окончании очередного журнала и о бекапе журналов (2-7 сек).
База под репликацией HDR (!).


Описанные остановки - достаточно яркий признак. И обычно это чекпоинт - но слишком уж период остановки долгий. Репликация - вполне вероятно - но нужно явно больше информации.
1. Проверяли ли следующее: читающие запросы из какой-нибудь утилиты (dbaccess, eSQLEditor, ...) в моменті зависаний отрабатывают нормально?
2. Проверяли-ли состояние репликации onstat -g dri? (Хотя в online.log по Вашим словам ничего подозрительного. Отсюда следствие №1 "Не пересказівайте своими словами то, что можете взять из системы" (почти (с) ЧаВО)

IDS admin
Как и чем мне вычислить такую ситуацию. Предполагаю, что нужно запустить какое-то периодическое считование счетчиков IDS и ОС, но не знаю что именно... Еще этим мониторингом нельзя мешать работе самой системы.

Как минимум, периодический onstat: работать должен с памятью, объём информации сохраняемый на винчестер достаточно небольшой при разумном пользовании. Даже если вы сделаете вручную в нужные моменты: до начала проблемы, в период зависания и после отвисания - уже неплохо.

IDS admin
Вот еще: создается впечатление, что такие зависания наиболее вероятны после запроса UPDATE на несколько тыс. записей.

Подумайте, можете ли воспроизвести ситуацию либо определить моменты выполнения таких апдейтов для пристального слежения за системой.

10 раз в сутки на полчаса - это много - имхо, не самое время переживать о том, "чтобы мониторинг чего-нить там не затормозил" (хотя позаботиться - по мере возможности - стоит...).
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36043322
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Следствие №2: почитайте "Как правиьно задвать вопросы" хотя юы ПОСЛЕ того, как спадёт горячка.

№2: online.log в архив - и сюда в аттач.

№3: Поскольку у Вас HDR - online.log с HDR - тоже сюда.

№4: HDR используется только как резервный - или используется сессиями для получения данных?
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36043443
Фотография Daugava
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Ну не на полчаса, а на 25 секунд.
Возможно хватит обычного onstat -u в момент подвисания, для того чтобы увидеть, кого все ждут.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36043460
Алексан
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin...Все бы хорошо, но БД начала периодически и без явных причин "подвисать". Т.е. в один прекрасный момент все приложения, которые работают с базой, блокируют свое дальнейшее выполнение при любом запросе на изменение данных в БД. Затем все одновременно (с точностью до 0.01 сек) продолжают свою работу...

Вопроса насчет этого безобразия 2:
1) Кто-нибудь на основании этого описания и своего опыта может предложить возможную причину? Буду крайне признателен...
Вот еще: создается впечатление, что такие зависания наиболее вероятны после запроса UPDATE на несколько тыс. записей... Похоже на ожидание чекпоинта (контрольной точки, как Вы его называете). Также похоже на недостаточность размера физического журнала (если он заполняется на 75%, то инициируется чекпоинт).
Желательно увидеть фрагмент online.log'а, охватывающий несколько таких зависаний, конфигурационный файл (обычно $INFORMIXDIR/etc/onconfig) или, как минимум, значение конф. параметра CKPTINTVL и выход onstat -l (идеально в момент зависания).
К слову, onstat не замедлит работу Вашей системы.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36043999
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АлексанIDS adminВот еще: создается впечатление, что такие зависания наиболее вероятны после запроса UPDATE на несколько тыс. записей...
Похоже на ожидание чекпоинта (контрольной точки, как Вы его называете).
Поддерживаю Александра.
Инициируется КТ, все транзакции приостанавливаются, но алгоритм старых версий IDS не может приостановить ВСЕ текущие транзакции - продолжает работать та, в которой выполняется "критическая секция кода" (по доке). Сюда относятся, в том числе, и транзакции, которые ведут активную запись (вот вам и Update нескольких тысяч записей). Пока эта транзакция не закончит свое дело. все будут стоять и ждать.
Ранее этого не наблюдалось, скорее всего, из-за того, что объемы UPDATE были меньше (таблицы со временем разрослись или пользователей стало больше). Если диагноз подтвердится - методі лечения предложим.
Второй причиной может быть блокировка какой-то ключевой таблицы, с которой работают все приложения (пользователи) и которую "прихватывает" тот самый update.
Нужен onstat -p за период активной работы (1-2 часа) или периодический просмотр блокировок или запрос по ожиданиям на блокировках по таблицам. Если не знаете как - спросите.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044112
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
DaugavaНу не на полчаса, а на 25 секунд.
Возможно хватит обычного onstat -u в момент подвисания, для того чтобы увидеть, кого все ждут.
Мда, спасибо, облажался (с)
Тогда и про контрольную точку можно подумать.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044131
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
vasilisПоддерживаю Александра.
Инициируется КТ, все транзакции приостанавливаются, но алгоритм старых версий IDS не может приостановить ВСЕ текущие транзакции - продолжает работать та, в которой выполняется "критическая секция кода" (по доке).

IDS adminТакие вещи происходят до 10 раз в сутки. В online.log только записи о КТ (0-2 сек), окончании очередного журнала и о бекапе журналов (2-7 сек).

vasilis, а что, в этом случае длительность КТ измеряется от момента начала непосредственно записи на диск, а не от момента начала всего процесса? Или делаем допуск на недостаточную внимательность IDS admin при чтении online.log?
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044495
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Спасибо за советы. Пойду осмыслять)

Вот доп. информация:

onstat -g dri:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Informix Dynamic Server Version 7.31.UC5    -- On-Line (Prim) -- Up 7 days 09:16:20 -- 704512 Kbytes

Data Replication:
  Type         State        Paired server        Last DR CKPT (id/pg)
  primary      on           ol37                    159686 / 23184

  DRINTERVAL   20
  DRTIMEOUT    30
  DRAUTO       0
  DRLOSTFOUND  /usr/informix/etc/dr.lostfound


Последнее зависание произошло
Код: plaintext
1.
с 18:15:54
по18:16:14

Записи в online.log PRIMARY:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
18:14:14  Logical Log 159181 Complete.
18:14:16  Checkpoint Completed:  duration was 0 seconds.
18:14:17  Logical Log 159181 - Backup Started
18:14:19  Logical Log 159181 - Backup Completed
18:14:47  Checkpoint Completed:  duration was 0 seconds.
18:15:19  Checkpoint Completed:  duration was 1 seconds.
18:15:48  Logical Log 159182 Complete.
18:15:51  Logical Log 159182 - Backup Started
18:15:51  Checkpoint Completed:  duration was 2 seconds.
18:15:52  Logical Log 159182 - Backup Completed
18:16:22  Checkpoint Completed:  duration was 0 seconds.
18:16:53  Checkpoint Completed:  duration was 1 seconds.
18:17:24  Checkpoint Completed:  duration was 1 seconds.
18:17:44  Logical Log 159183 Complete.
18:17:48  Logical Log 159183 - Backup Started
18:17:50  Logical Log 159183 - Backup Completed
18:17:55  Checkpoint Completed:  duration was 1 seconds.


Записи в online.log SECONDARY:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
18:12:50  Checkpoint Completed:  duration was 7 seconds.
18:13:22  Checkpoint Completed:  duration was 7 seconds.
18:13:53  Checkpoint Completed:  duration was 7 seconds.
18:14:23  Checkpoint Completed:  duration was 7 seconds.
18:14:53  Checkpoint Completed:  duration was 6 seconds.
18:15:28  Checkpoint Completed:  duration was 9 seconds.
 18:16:14  Checkpoint Completed:  duration was 22 seconds. 
18:16:30  Checkpoint Completed:  duration was 8 seconds.
18:17:08  Checkpoint Completed:  duration was 13 seconds.
18:17:29  Checkpoint Completed:  duration was 5 seconds.
18:18:03  Checkpoint Completed:  duration was 7 seconds.
18:18:35  Checkpoint Completed:  duration was 8 seconds.
18:19:01  Checkpoint Completed:  duration was 3 seconds.
18:19:30  Checkpoint Completed:  duration was 2 seconds.
18:20:01  Checkpoint Completed:  duration was 2 seconds.

Не могу понять, почему чекпойнты на read-only сервере дольше чем на основном.
да и 22 секунды - это как то очень круто.
Время окончания совпадает с временем "отвисания". И длительность похожа.

Может как-то связано...
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044515
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS adminНе могу понять, почему чекпойнты на read-only сервере дольше чем на основном.
да и 22 секунды - это как то очень круто.
Время окончания совпадает с временем "отвисания". И длительность похожа.

Может как-то связано...
Таки Александр и vasilis были правы.
Дальше нужно разбираться с железом, ОС и конфигом secondary...
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044532
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 АнатоЛой

АнатоЛой1. Проверяли ли следующее: читающие запросы из какой-нибудь утилиты (dbaccess, eSQLEditor, ...) в моменті зависаний отрабатывают нормально?
Не могу сказать. Нужно "ловить" момент и запускать читающую утилиту. Как это сделать - ума не приложу.

АнатоЛой
Подумайте, можете ли воспроизвести ситуацию либо определить моменты выполнения таких апдейтов для пристального слежения за системой.

Нет, никак. Данные генерируются "на лету". Много уникальных параметров. Чтобы воспроизвести реальные условия нужно очень большой стенд собирать. А синтетические тесты и бенчмарки тут, боюсь, не помогут, т.к. ни в одном из них не наблюдалось такое поведение.

АнатоЛой
№4: HDR используется только как резервный - или используется сессиями для получения данных?
Насколько мне известно - только как резерв. Но я это еще проверю.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044538
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
АнатоЛой,

АнатоЛойТаки Александр и vasilis были правы.
Дальше нужно разбираться с железом, ОС и конфигом secondary...

А почему тогда зависания не наблюдаются, когда на Secondary проходит менее длительный чекпойнт?

Например, когда он был
Код: plaintext
18:17:08  Checkpoint Completed:  duration was 13 seconds.
никакого зависания на 13 секунд не было.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044544
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
DaugavaВозможно хватит обычного onstat -u в момент подвисания, для того чтобы увидеть, кого все ждут.
Да я бы с радостью, но не знаю как мне это сделать непосредственно в момент подвисания. Только если делать его постоянно, раз в 5-10 секунд.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044573
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 vasilis
Thx.

vasilisПоддерживаю Александра.
Инициируется КТ, все транзакции приостанавливаются, но алгоритм старых версий IDS не может приостановить ВСЕ текущие транзакции - продолжает работать та, в которой выполняется "критическая секция кода" (по доке). Сюда относятся, в том числе, и транзакции, которые ведут активную запись (вот вам и Update нескольких тысяч записей). Пока эта транзакция не закончит свое дело. все будут стоять и ждать.
Ранее этого не наблюдалось, скорее всего, из-за того, что объемы UPDATE были меньше (таблицы со временем разрослись или пользователей стало больше). Если диагноз подтвердится - методі лечения предложим.
Второй причиной может быть блокировка какой-то ключевой таблицы, с которой работают все приложения (пользователи) и которую "прихватывает" тот самый update.
Нужен onstat -p за период активной работы (1-2 часа) или периодический просмотр блокировок или запрос по ожиданиям на блокировках по таблицам.

А разве КТ на Secondary сервере влияет на работу Primary? Ведь на Primary все КТ проходят быстро, а не 2-25 сек, как на Secondary.

Сорри, возможно я не совсем понятно написал. Тот большой update, о котором идет речь, успевает закончится до зависаний за несколько минут. Иногда зависания вообще нельзя связать с этим update.

Насчет блокировки ключевой таблицы - это вряд ли, т.к. подвисают ф-и разных приложений, работающие с разными таблицами. Там простые запросы, триггеров нет.

onstat -p сделаю. Как лучше делать? Обнулить один раз (onstat -z) и через 1 час сделать onstat -p, либо за 1 час сделать N onstat-p и onstat-z?

Если не знаете как - спросите.
Как сделать периодический просмотр блокировок или запрос по ожиданиям на блокировках по таблицам? )
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044576
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin
Код: plaintext
1.
Informix Dynamic Server Version 7.31.UC5    -- On-Line (Prim) -- Up 7 days 09:16:20 -- 704512 Kbytes


Вместо UС5 что-нить побольше поставить не хотите-ли (по памяти, как минимум UD8 был)? Можно, конечно, сначала пошерстить и в перечне пофиксеных багов...
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044591
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin
onstat -p сделаю. Как лучше делать? Обнулить один раз (onstat -z) и через 1 час сделать onstat -p, либо за 1 час сделать N onstat-p и onstat-z?


Обнулить один раз (onstat -z) и в crontab повесить регулярный раз в 1 мин onstat -p с приписыванием имени файла даты-времени.

IDS admin
Как сделать периодический просмотр блокировок или запрос по ожиданиям на блокировках по таблицам? )
аналогично onstat -k - и в кронтаб
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044600
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
АнатоЛойIDS admin
Код: plaintext
1.
Informix Dynamic Server Version 7.31.UC5    -- On-Line (Prim) -- Up 7 days 09:16:20 -- 704512 Kbytes


Вместо UС5 что-нить побольше поставить не хотите-ли (по памяти, как минимум UD8 был)? Можно, конечно, сначала пошерстить и в перечне пофиксеных багов...

Хотим. Но не можем к сожалению. Тем более планируем вообще уходить со SCO и пересесть на 11.50 под Linux.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044604
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
АнатоЛой
Обнулить один раз (onstat -z) и в crontab повесить регулярный раз в 1 мин onstat -p с приписыванием имени файла даты-времени.

аналогично onstat -k - и в кронтаб

Спасибо!
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044613
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Всем спасибо за советы.

Теперь есть четкое понимание:
Зависания происходят в тот же момент, что и начало checkpoint'а на Secondary (!!!) сервере.
Зависания заканчиваются одновременно с checkpoint'ом на Secondary сервере.
Все с точностью до 0.5 сек. (время ИМХО по разному округляется в трассах)

Теперь вопросы,
1) что из этого причина, а что следствие (зависания / долгие checkpoint'ы)? Либо эти оба факта есть следствия 3ей проблемы?
2) Почему так долго делаются checkpoint'ы на Secondary?
3) Как checkpoint'ы Secondary блокируют транзакции на Primary?
4) И главное. Если дело все-таки в checkpoint'ах на Secondary, то как их ускорить? Там неплохой сервер, корзина на 15 дисков, нормальный контроллер с кешем (150 МБ чтение, 360 запись).
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36044783
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin4) И главное. Если дело все-таки в checkpoint'ах на Secondary, то как их ускорить? Там неплохой сервер, корзина на 15 дисков, нормальный контроллер с кешем (150 МБ чтение, 360 запись).

"Хороший сервер" - это ВСЕГДА относительно :). Вы не так уж много рассказывали про нагрузку - только про "20 запросов в секунду" (как Вы их, кстати, считали?), "выборка по PK, insert одной записи, update по индекс. полю.". Реальный объём изменяемых и получаемых данных всё так же у нас в предположениях. "onstat -p" мы так и не увидели :) :(. Конфиги с обоих серверов тоже.
Стесняетесь? Боитесь? ОК. :(

Сравнивайте железо и конфиги на двух серверах: первичном и вторичном. НЕ хотите показывать весь конфиг - спрашивайте об отличиях конкретных параметров конфига или насколько важно такое-то и такое отличие в железе и настройках операционки и файловой системы. Сравнивайте onstat перичного и вторичного сервера.

Для разборок: параметры конфига CKPTINTVL, CLEANERS, DRINTERVAL, LOGBUFF, LOGSIZE, LOGFILES, LRUS, LRU_MIN_DIRTY, LRU_MAX_DIRTY, NUMAIOVPS, ONDBSPACEDOWN, PHYSBUFF, PHYSFILE.

Не помешает onstat -g iof, iov. Надеюсь, проверять скорость работы сетевого соединения между серверами не понадобится, а также не понадобится проверять, а не нагружен ли вторичный посторонней работой по отношению к Informix HDR :)

Кроме того, возникают типичные вопросы: допустим у первого сервера проблем нет, и всякие обыденные мелочи типа разделения физического журнала, логического журнала, и rootdbs уже имеются. Тем не менее, нормально ли вторичном сервере расположены чанки на дисках, нормально ли работает дисковая система, чанки используются cooked, raw, ...
Вопросов и идей много - поможет ли оно Вам без наличия нормальной обратной связи?
Удачи. %)
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045022
Фотография Тан
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
18:14:16  Checkpoint Completed:  duration was 0 seconds.
18:14:47  Checkpoint Completed:  duration was 0 seconds.
18:15:19  Checkpoint Completed:  duration was 1 seconds.
18:15:51  Checkpoint Completed:  duration was 2 seconds.
18:16:22  Checkpoint Completed:  duration was 0 seconds.
18:16:53  Checkpoint Completed:  duration was 1 seconds.
18:17:24  Checkpoint Completed:  duration was 1 seconds.
18:17:55  Checkpoint Completed:  duration was 1 seconds.

а почему у вас чекпойнты так часто?
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045059
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
ТанIDS admin
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
18:14:16  Checkpoint Completed:  duration was 0 seconds.
18:14:47  Checkpoint Completed:  duration was 0 seconds.
18:15:19  Checkpoint Completed:  duration was 1 seconds.
18:15:51  Checkpoint Completed:  duration was 2 seconds.
18:16:22  Checkpoint Completed:  duration was 0 seconds.
18:16:53  Checkpoint Completed:  duration was 1 seconds.
18:17:24  Checkpoint Completed:  duration was 1 seconds.
18:17:55  Checkpoint Completed:  duration was 1 seconds.

а почему у вас чекпойнты так часто?

Предполагаю, что это из-за CKPTINTVL = 0. Хотя судя по документации
IBMСервер баз данных также может производить обработку контрольных точек при других условиях, например, когда физический журнал заполнится на 75 процентов.
но интервал в обеих IDS строго 30 секунд. Особенность 7.31?
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045243
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 АнатоЛой, 2 ALL

Итак, поехали:

onstat -p за 1 час 30 минут работы
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
Informix Dynamic Server Version 7.31.UC5    -- On-Line (Prim) -- Up 8 days 01:05:34 -- 704512 Kbytes

Profile
dskreads pagreads bufreads %cached dskwrits pagwrits bufwrits %cached
23986275 32268974 482024528 95.02   4260237  7171281  9592173  55.59

isamtot  open     start    read     write    rewrite  delete   commit   rollbk
220858436 837859   3416107  106643894 305615   1713517  564      1806322  0

gp_read  gp_write gp_rewrt gp_del   gp_alloc gp_free  gp_curs
0        0        0        0        0        0        0

ovlock   ovuserthread ovbuff   usercpu  syscpu   numckpts flushes
0        0            0        3024.63  1419.28  173      346

bufwaits lokwaits lockreqs deadlks  dltouts  ckpwaits compress seqscans
2146488  1593     289396202 0        0        731      45232    15195

ixda-RA  idx-RA   da-RA    RA-pgsused lchwaits
5962451  5        12167759 17942272   1603116
Это примерно в 3 раза меньшая загрузка, чем на пиках.

Сервера PRIMARY и SECONDARY
2 одинаковые машины (ОС, параметры ядра, onconfig, внутренние диски/контроллер). Различие есть только дисковой подсистеме, на которых работает информикс:
на Primary SAS и 256 МБ кеш
на Secondary SCSII U320 и 512 МБ кеш.
На обоих серваках по 8 Core 2. По 4 ГБ ОП.
Чанки везде - это RAW, под ними разделы дисков SCO (т.е. SCO видит диски, сконфигуренные на контроллере RAID 1+ 0, они fdisk'ом побиты на партиции, и каждая партиция затем побита на "разделы" divvy. Вот ссылки из /dev/r* - это и есть чанки. У всех, понятное дело crw-------)
Месяц назад текущий Secondary был Primary. Работал точно так же, как сейчас работает бывший Secondary.
Сеть между ними - это сеть только между ними (отдельные сетевухи у каждого из серваков воткнутые в один свитчик). Пинг в обе стороны < 1 ms. Скорость закачки файлов по FTP 9390.73 Kbytes/s (Primary - сервер, secondary - клиент). С сетью вроде все Ок. Почти все 100 МБит.
Secondary сервер ничем кроме информикса в ReadOnly не нагружен.

onconfig (одинаковый для обоих серверов приложил)
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045371
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
На всякий случай, 2 разных onstat -p. Для Prim и Sec. За онид и тот же промежуток времени.

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
Informix Dynamic Server Version 7.31.UC5    -- On-Line ( Prim ) -- Up 8 days 01:34:16 -- 704512 Kbytes

Profile
dskreads pagreads bufreads %cached dskwrits pagwrits bufwrits %cached
1550046  2931571  44241529 96.50   538317   1370041  1178393  54.32

isamtot  open     start    read     write    rewrite  delete   commit   rollbk
27492608 133817   425863   13396280 23381    221266   65       225289   0

gp_read  gp_write gp_rewrt gp_del   gp_alloc gp_free  gp_curs
0        0        0        0        0        0        0

ovlock   ovuserthread ovbuff   usercpu  syscpu   numckpts flushes
0        0            0        314.21   138.65   21       42

bufwaits lokwaits lockreqs deadlks  dltouts  ckpwaits compress seqscans
216061   214      31998008 0        0        98       3537     2537

ixda-RA  idx-RA   da-RA    RA-pgsused lchwaits
704200   0        496602   1200579    155030


Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
Informix Dynamic Server Version 7.31.UC5    -- Read-Only ( Sec ) -- Up 01:43:29 -- 704512 Kbytes

Profile
dskreads pagreads bufreads %cached dskwrits pagwrits bufwrits %cached
5580331  7578575  25914684 78.47   192594   452102   818567   76.47

isamtot  open     start    read     write    rewrite  delete   commit   rollbk
800453   1        0        36       0        0        0        0        0

gp_read  gp_write gp_rewrt gp_del   gp_alloc gp_free  gp_curs
0        0        0        0        0        0        0

ovlock   ovuserthread ovbuff   usercpu  syscpu   numckpts flushes
0        0            0        192.95   152.09   20       41

bufwaits lokwaits lockreqs deadlks  dltouts  ckpwaits compress seqscans
139742   0        0        0        0        0        21169    0

ixda-RA  idx-RA   da-RA    RA-pgsused lchwaits
0        0        4349555  4191666    451403

Видно, что Secondary читает с диска больше в 3.6 раза, а пишет меньше в 2.8 раза.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045477
Алексан
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
ТанIDS admin
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
18:14:16  Checkpoint Completed:  duration was 0 seconds.
18:14:47  Checkpoint Completed:  duration was 0 seconds.
18:15:19  Checkpoint Completed:  duration was 1 seconds.
18:15:51  Checkpoint Completed:  duration was 2 seconds.
18:16:22  Checkpoint Completed:  duration was 0 seconds.
18:16:53  Checkpoint Completed:  duration was 1 seconds.
18:17:24  Checkpoint Completed:  duration was 1 seconds.
18:17:55  Checkpoint Completed:  duration was 1 seconds.

а почему у вас чекпойнты так часто?Потому что сервер не настроен; как Вам, например, такое соотношение: размер одного журнала тр-й - 256 Мб (судя по конфигу, onstat -l он так и не показал; заметьте, и его хватает на 1,5-2 минуты...), а размер физического журнала - 32 Мб, и, кроме того, LRU_MIN_DIRTY/LRU_MAX_DIRTY - 20/30 и клинеров всего 8. Ещё и NUMAIOVPS не установлен - по-умолчанию используется 4 AIO VPs, кажется...). Соответственно, ему ничего не остаётся, как настроить чекпоинты как можно чаще - он и поставил в 0 (правда, тут уже сервер отказывается их делать чаще, чем раз в 30 секунд...)
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045512
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin
onconfig (одинаковый для обоих серверов приложил)
Очень надеюсь, что он действительно одинаковый. И что в нём актуальное состояние параметров.

1.
onconfig
ROOTNAME rootdbs # Root dbspace name
ROOTSIZE 2000000 # Size of root dbspace (Kbytes)
PHYSDBS rootdbs # Location (dbspace) of physical log
LOGFILES 184 # Number of logical log files
LOGSIZE 256000 # Logical log size (Kbytes)


Что-то у меня подозрение, что onstat -d и onstat -l покажут, что логические журналы сидят в rootdbs... Давайте их (onstat) тоже сюда.
ROOTSIZE уж больно большой. Читайте про перенос физического и логического журнала в другие dbspace.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045527
svat2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
IDS admin

А почему тогда зависания не наблюдаются, когда на Secondary проходит менее длительный чекпойнт?

Например, когда он был
Код: plaintext
18:17:08  Checkpoint Completed:  duration was 13 seconds.
никакого зависания на 13 секунд не было.

я бы, ради эксперимента, увеличил это значение до 30 :
Код: plaintext
DRINTERVAL   20

... и посмотрел бы, кореллирует ли оно с длительностью чекпойнта, при котором наблюдается зависание.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045548
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Мой имхо: "onstat -a" с обоих серверов - и сюда в аттач, или этот процесс растянется на месяц :)
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045560
zaiets
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
profile конечно хорошо
но, как говорил ДАО нужен хотя бы onstat -u в сосент трабл
А вообще в вашем случае начинать нужно :
onstat -u
onstat -g lmx
onstat -g wmx
onstat -g act
onstat -g ath | grep netnorm
sar . iostat . vmstat
в момент трабл с основного и репл. а потом уже идти дальше.

Также,
1. трабла со всеми видами коннектов или только с сетевыми?
2. в момент трабл на основном сервере - на репликационном как работается?


Насколько помню. на СКО была трабла с КАИО.
Если у вас не используется КАИО - попробуйте увеличитть количетсво АИО (может вы просто переросли старые настройки) - увеличить иногда нужно в разы
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045646
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
onconfig
CLEANERS 8 # Number of buffer cleaner processes
#LRUS 64 # Number of LRU queues
LRUS 256

непонятный дисбаланс между CLEANERS и LRUS. CLEANERS могут "не успевать".

П.С.: На будущее - комментируя старое значение параметра в onconfig - ставьте также дату время(а иногда и (с) - если есть вероятность правки конфига разными людьми):

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
#CLEANERS Number of buffer cleaner processes

#CLEANERS  8  # 20090617   1112  (c) AnatoLoy
CLEANERS  32 

#LRUS Number of LRU queues

#LRUS  64 
#LRUS  256  # 20090617   1112  (c) AnatoLoy
LRUS  32 

Приведённые рекомендации приблизительны - всё-таки не хватает разных onstat для проверки предположений, а также нужны следить и после изменения параметров...
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045693
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
onconfig
PHYSBUFF 32 # Physical log buffer size (Kbytes)

Поднимите PHYSBUFF до 128.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045699
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
И про чанки всё таки подробнее хотелось бы...
onstat -d уже просили. Можно и onstat -D.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045713
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Приложил onstat -a с обоих серверов.
На самом деле это не так легко как может показаться ))

Сейчас пробую сделать по совету АнатоЛой.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045719
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
не влез onstat -a с Sec сервера, прикладываю тут
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045814
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
АнатоЛой,

Спасибо за совет. Но изменения
CLEANERS = 32
LRU = 32
PHYSBUFF = 128

ничего не дали. Чекпойнты отрабатывают ровно столько же времени, что и раньше

автор12:52:46 Checkpoint Completed: duration was 1 seconds.
12:53:19 Checkpoint Completed: duration was 4 seconds.
12:54:02 Checkpoint Completed: duration was 14 seconds.
12:54:24 Checkpoint Completed: duration was 5 seconds.
12:55:01 Checkpoint Completed: duration was 10 seconds.
12:55:28 Checkpoint Completed: duration was 8 seconds.
12:55:57 Checkpoint Completed: duration was 5 seconds.
12:56:29 Checkpoint Completed: duration was 6 seconds.
12:57:01 Checkpoint Completed: duration was 8 seconds.
12:57:32 Checkpoint Completed: duration was 7 seconds.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36045945
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin, ещё раз читайте про вынос физического и логического журналов из rootdbs в отдельные dbspace - и жедательно на разных дисках...
Вариант от svat2 с DRINTERVAL не проверяли?
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046041
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
АнатоЛой,

логические журнал в отдельном DBSpace.
DRINTERVAL по совету svat2 поменял (только на Secondary) , не изменилось ничего.

Вынос физического журнала в отдельный DBspace не делал (не могу класть Primary). Зачем, кстати, это нужно?
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046186
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Тааак... Похоже на Secondary сдохла батарейка на контроллере... Мой хвалёный кеш на запись не пашет.

Во время каждого checkpoint'а на Secondary некоторые диски грузятся на 100 %, а процессор ожидает ВВ:

Вот запись из online.log:
Код: plaintext
15:07:33  Checkpoint Completed:  duration was 11 seconds.

А вот sar -u за этот период:
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
          device   %busy     avque     r+w/s    blks/s    avwait    avserv (-d) 
15:07:17 Sdsk-1    61.76      1.00    163.73   1160.78      0.00      3.77
         Sdsk-2     4.90      1.00     26.47    105.88      0.00      1.85

15:07:18 Sdsk-1    37.62      1.00    112.87    673.27      0.00      3.33
         Sdsk-2     2.97      1.00      9.90     39.60      0.00      3.00

15:07:19 Sdsk-1    70.00      1.00    175.00   1268.00      0.00      4.00
         Sdsk-2     1.00      1.00     16.00     64.00      0.00      0.62

15:07:20 Sdsk-0     2.94      1.00      4.90      9.80      0.00      6.00
         Sdsk-1    37.25      1.00     84.31    705.88      0.00      4.42
         Sdsk-2     5.88      1.00     24.51     98.04      0.00      2.40

15:07:21 Sdsk-0    68.63      1.00     31.37     80.39      0.00     21.88

15:07:22 Sdsk-1   100.00      1.00    276.24   1207.92      0.00     46.20
         Sdsk-2   100.00      1.00    240.59    962.38      0.00     51.56

15:07:23 Sdsk-1   100.00      1.00    357.84   1533.33      0.00     43.81
         Sdsk-2   100.00      1.00    835.29   4254.90      0.00     32.54

15:07:24 Sdsk-2   100.00      1.00   1147.00   5332.00      0.00     14.39

15:07:25 Sdsk-2   100.00      1.00   1004.95   4796.04      0.00     13.65

15:07:26 Sdsk-2   100.00      1.00   1027.72   4574.26      0.00     12.00

15:07:27 Sdsk-0     2.91      1.00      4.85      9.71      0.00      6.00
         Sdsk-2   100.00      1.00    950.49   4097.09      0.00      8.85

15:07:28 Sdsk-0    62.38      1.00     33.66     87.13      0.00     18.53
         Sdsk-2   100.00      1.00   1050.50   4364.36      0.00      6.82

15:07:29 Sdsk-2   100.00      1.00    891.18   4019.61      0.00      8.15

15:07:30 Sdsk-2   100.00      1.00    866.00   3768.00      0.00      8.68

15:07:31 Sdsk-2   100.00      1.00   1193.00   4880.00      0.00      6.90

15:07:32 Sdsk-2   100.00      1.00    749.00   3340.00      0.00     10.11

15:07:33 Sdsk-1   100.00      1.00    202.94   2400.00      0.00      4.93
         Sdsk-2   100.00      1.00    611.76   2474.51      0.02      5.45

15:07:34 Sdsk-0     3.00      1.00      5.00     10.00      0.00      6.00
         Sdsk-1    90.00      1.00    197.00   1992.00      0.00      4.57
         Sdsk-2    42.00      1.00    100.00    400.00      0.00      4.20

15:07:35 Sdsk-0   100.00      1.00     44.00    108.00      0.00     23.41
         Sdsk-1    85.00      1.00    195.00   1584.00      0.00      4.36
         Sdsk-2    16.00      1.00     63.00    252.00      0.00      2.54

15:07:36 Sdsk-1    89.11      1.00    200.00   1782.18      0.00      4.46
         Sdsk-2     8.91      1.00     51.49    205.94      0.00      1.73

15:07:37 Sdsk-1    70.00      1.00    167.00   1412.00      0.00      4.19
         Sdsk-2    12.00      1.00     64.00    256.00      0.00      1.88

15:07:38 Sdsk-1    44.55      1.00    116.83   1108.91      0.00      3.81
         Sdsk-2     5.94      1.00     42.57    170.30      0.00      1.40

Это может быть причиной?
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046220
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АнатоЛойvasilisПоддерживаю Александра.
Инициируется КТ, все транзакции приостанавливаются, но алгоритм старых версий IDS не может приостановить ВСЕ текущие транзакции - продолжает работать та, в которой выполняется "критическая секция кода" (по доке).
IDS adminТакие вещи происходят до 10 раз в сутки. В online.log только записи о КТ (0-2 сек), окончании очередного журнала и о бекапе журналов (2-7 сек).
vasilis, а что, в этом случае длительность КТ измеряется от момента начала непосредственно записи на диск, а не от момента начала всего процесса? Или делаем допуск на недостаточную внимательность IDS admin при чтении online.log?
Скорее всего, именно от начала всего процесса, но, возможно, и по другому.
Увидеть такие задержки в КТ можно по показателю ckpwaits (кол-во, но не длительность).
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046234
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АнатоЛойIDS adminНе могу понять, почему чекпойнты на read-only сервере дольше чем на основном. да и 22 секунды - это как то очень круто.
Время окончания совпадает с временем "отвисания". И длительность похожа.
Может как-то связано...
Таки Александр и vasilis были правы.
Дальше нужно разбираться с железом, ОС и конфигом secondary...
Насчет нашей правоты я бы не торопился :)
Я то думал на первичный сервер, а вот с секондари все может быть значительно сложнее.
Никогда ранее плотно не мониторил вторичные сервера и поэтому для меня там много непонятного.
И длинные КТ на вторичном сервере могут быть следствием как первичного сервера, так и внутренних собственных процессов.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046258
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS adminА почему тогда зависания не наблюдаются, когда на Secondary проходит менее длительный чекпойнт?
очень логичный вопрос и ответ на него может сильно приблизить к решению проблемы.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046322
svat2
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
IDS admin
DRINTERVAL по совету svat2 поменял (только на Secondary) , не изменилось ничего.

...мда: "залил бензин в Жигули, не изменилось ничего: Москвич все равно не заводится" :)
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046362
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS adminА разве КТ на Secondary сервере влияет на работу Primary? Ведь на Primary все КТ проходят быстро, а не 2-25 сек, как на Secondary.
Включенный HDR влияет достаточно сильно на оба сервера (особенно под хорошей нагрузкой) и в обе стороны. К тому же, если включена синхронная репликация, то сервера просто вынуждены все время согласовывать свои действия (точнее, первичный поджидает вторичный).
IDS adminКак сделать периодический просмотр блокировок или запрос по ожиданиям на блокировках по таблицам? )
Пользуетесь OnManager от Дениса Журавлева ? http://myinformix.narod.ru/
Или можно использовать готовые запросы (их довольно много в DBA_Tools http://www.ifolder.ru/f46081
Вот парочка старых, которые работали на 7.31 (для sysmaster):

Locks waiting list (блокировки, которые кто-то ждет)
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
---------------------------------------------
-- To list the database, tablename, login, sessionid, and pid
--  associated with any lock which has a wait list
--
-- V.Shulzhenko  DBA_Tools
---------------------------------------------
set isolation to dirty read;
SELECT dbsname
        ,tabname[ 1 , 18 ]
        ,sid           owner_sid
        ,username[ 1 , 8 ] owner
        ,l.waiter      waiter_sid
FROM sysmaster:syslocks l, sysmaster:syssessions s
WHERE s.sid = l.owner 
        and l.waiter >  0 
order by  1 , 2 , 3 ;
---------------------------------------------

Waiters of locks (те, кто ждет блокировки)
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
---------------------------------------------
-- The list of waiters
--  (if any session is waiting for a lock)
-- sysmaster:syslocks,syssessions
--
-- Shulzhenko V. DBA_Tools
---------------------------------------------
set isolation to dirty read;
SELECT 
        l.waiter        waiter_sid
        ,s2.username[ 1 , 8 ]
        ,dbsname[ 1 , 18 ]
        ,tabname[ 1 , 18 ]
        ,s1.sid         owner_sid
FROM syslocks l,syssessions s1,syssessions s2
WHERE s1.sid = l.owner
        AND s1.sid=s2.sid  
        AND l.waiter > 0 
order by  3 , 4 ;
---------------------------------------------
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046436
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
svat2IDS admin
DRINTERVAL по совету svat2 поменял (только на Secondary) , не изменилось ничего.

...мда: "залил бензин в Жигули, не изменилось ничего: Москвич все равно не заводится" :)

Залью бензин в Москвич, при следующем ребуте ))
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046464
IDS Admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
2 vasilis

Спасибо, буду проверять.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046528
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АнатоЛой"onstat -p" мы так и не увидели :) :(. Конфиги с обоих серверов тоже.
Стесняетесь? Боитесь? ОК. :(
Безопасность в банках иногда зверствует :)
Т.ч. человека понять можно, наверное и под гостевым аккаунтом не зря заходит :)
И хотя данные IDS Admin предоставляет, я бы все же рекомендовал ему имена серверов заменять (как и др. конкретную специфику, по которой можно однозначно идентифицировать место работы).
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046615
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS admin
Предполагаю, что это из-за CKPTINTVL = 0. Хотя судя по документации
IBMСервер баз данных также может производить обработку контрольных точек при других условиях, например, когда физический журнал заполнится на 75 процентов.
но интервал в обеих IDS строго 30 секунд. Особенность 7.31?
Никакой особенности здесь нет.
30 сек - минимальный интервал. При CKPTINTVL = 0 сервер. вроде, должен вообще перестать проверять время и инициировать КТ только по другим событиям. Но это не есть хорошо.
С лишком частые КТ дают большую нагрузку на систему (вся работа, выполняемая сервером во время КТ описана в доке).
Я бы очень рекомендовал установить хотя бы 5 мин. на первичном сервере. Если длительность этих значительно более редких КТ будет в пределах 1-2 сек, то еще увеличить до 10-15 мин. Если длительности КТ увеличаться, то регулировать уже LRU_MAX_DIRTY и LRU_MIN_DIRTY.
Кстати, физ журнал в 32М для нагруженной системы это ОЧЕНЬ мало - очень вероятно переполнение физжурнала (тех самых 25% остатка может не хватить в случае выполнения "критической секции кода"), а это чревато серьезным сбоем и восстановлением системы с бэкапа.
Нужно обязательно сделать что то типа 512М в отдельном дбпространстве.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046662
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
АлексанПотому что сервер не настроен;
Полностью поддержу - такое впечатление, что после начальной установки (поставили какие-то старые параметры с другого сервака) никто больше настройкой не занимался и под конкретную систему ничего не тьюнил.
Алексан
Ещё и NUMAIOVPS не установлен - по-умолчанию используется 4 AIO VPs, кажется...).
Насколько помню, если NUMAIOVPS не установлен (для Unix систем) то устанавливается двойное кол-во активных чанков. И слишком большое кол-во (в данном случае кажется 128) тоже ничего хорошего не принесет - дисков то все равно на порядок меньше.
Я увидел довольно много различий между установленными параметрами в onconfig и реально действующими в системе. Поетому, если можно - выполните запрос на предмет определения разницы

DIFFERENCE list Original and Effective ONCONFIG parameters
Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
----------------------------------------------
-- Create list differences original (ONCONFIG)
-- and effective parameters
--
-- V.Shulzhenko   DBA_Tools  2000-07 - 2007-01
----------------------------------------------
set isolation to dirty read;
select
--         cf_id          id,
         cf_name        name
        ,cf_effective   effective
        ,cf_original    original_ONCONFIG
        ,cf_default     default 
from sysconfig
where cf_original != cf_effective
      and cf_original !=''
order by 1;
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046706
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS adminРазличие есть только дисковой подсистеме, на которых работает информикс:
на Primary SAS и 256 МБ кеш
на Secondary SCSII U320 и 512 МБ кеш.
А проверьте целостность RAID-а на 2-м сервере. Посмотрите утилитой конфигурирования - может там диск вылетел и скорость записи резко упала ? Какая , кстати, она в чистом виде 2-кб блоками ?

IDS adminНа обоих серваках по 8 Core 2. По 4 ГБ ОП.
А почему же тогда Информикс использует менее 1Г ?
Да и CPUVP можно и нужно больше устанавливать , а не 4. В системе явно видны очереди ожиданий...
IDS admin
Месяц назад текущий Secondary был Primary. Работал точно так же, как сейчас работает бывший Secondary.
Тогда тем более удивительно. Нужно тщательно проанализировать, что за это время могло измениться в системе, начиная от железа, установки драйверов, плат, заканчивая апдейтами прикладной системы или добавлением филиала, например.[/quot]
IDS adminonconfig (одинаковый для обоих серверов приложил)
Дам рекомендации уже завтра - к сожвлению, сегодня уже нет времени :(
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36046903
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Устранил проблему с батарейкой кеша контроллера. Пока все ок, checkpoint'ы на Secondary стали проходят быстрее.

Код: plaintext
1.
2.
3.
4.
5.
6.
7.
8.
18:56:37  Checkpoint Completed:  duration was 1 seconds.
18:57:10  Checkpoint Completed:  duration was 2 seconds.
18:57:40  Checkpoint Completed:  duration was 1 seconds.
18:58:12  Checkpoint Completed:  duration was 2 seconds.
18:58:43  Checkpoint Completed:  duration was 1 seconds.
18:59:12  Checkpoint Completed:  duration was 0 seconds.
18:59:42  Checkpoint Completed:  duration was 0 seconds.
19:00:13  Checkpoint Completed:  duration was 0 seconds.

но пока все равно через каждые 30 сек.

Кстати, может кто и с HDR продскажет? Если Secondary вырубить на 1 час - накатываться до состояния Primary он будет 2 часа.

В любом случае всем спасибо. За дальнейшие рекомендации по оптимизации буду очень признателен.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36047060
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS adminУстранил проблему с батарейкой кеша контроллера. Пока все ок, checkpoint'ы на Secondary стали проходят быстрее.
Так все таки железо!
А в чем проблема с батарейкой, которая так повлияла на производительность ?
IDS adminно пока все равно через каждые 30 сек.
Измените параметр CKPTINTVL на обоих серверах, как я выше советовал. Затем помониторим длительности. Если будет нужно - будем настраивать.
Также нужно запланировать увеличение физлога.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36047123
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
vasilis А в чем проблема с батарейкой, которая так повлияла на производительность ?
Это батарейка от кеша контроллера. За ее счет данные живут в кеше записи, если электричество выключили внезапно, чтобы после включения скинуть данные кеша на диски.

Она просто разрядилась и больше не заряжалась (видать за 4 года активного использования она испортилась, а может еще чего). Контроллер в этом случае просто отключает кеширование. Таким образом, вся запись шла непосредственно на физ. диски.
Предполагаю, что после замены батарейки контроллер моментально проглатывает до 256 МБ в кеш во время чекпойнта, а затем сам скидывает данные на диски.

vasilis Измените параметр CKPTINTVL на обоих серверах, как я выше советовал. Затем помониторим длительности. Если будет нужно - будем настраивать.
Также нужно запланировать увеличение физлога.

Ок!
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36051660
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
IDS adminvasilis А в чем проблема с батарейкой, которая так повлияла на производительность ?
...Контроллер в этом случае просто отключает кеширование.
Меня именно этот аспект интересовал. Контроллер оказался довольно умным :)
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36051751
vasilis
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
vasilisДам рекомендации уже завтра - к сожалению, сегодня уже нет времени :(
завтра пришло послезавтра :)

Ниже мои рекомендации по onconfig без подробных объяснений (некоторые уже были ранее).
Что будет непонятно - спрашивайте. Лучше добавлять (изменять) понемногу. Так лучше понять результаты изменений и откатить назад, если что.
Исходим из того, что 16 ядер, 4 Гб ОП, на сервере только IDS и ничего более, чистый OLTP (редкость, кстати), много дисков, высокая нагрузка.

PHYSFILE 512000 (32М - старый) - большой размер ничем не грозит, маленький - опасен.

LOGFILES 184 # Number of logical log files
LOGSIZE 256000 # Logical log size (Kbytes)
Логи у вас разных размеров и разбросаны по многим пространствам. Надо бы навести порядок.
Почему ? Например, полетит один из рядовых чанков с данными (возможно и не критичными). В обычной ситуации сервер будет продолжать работать, но если там лежит логический журнал, то сервер встанет полностью.

TBLSPACE_STATS 1 - после настройки этот параметр лучше выключать в тяжело нагруженной системе

RESIDENT 2 (0) - два сегмента должны быть резидентными

NUMCPUVPS 12 (4) - при 16 ядрах можно смело увеличивать

NOAGE 0 # Process aging
AFF_SPROC 0 # Affinity start processor
AFF_NPROCS 0 # Affinity number of processors
А на SCO эти параметры работают в принципе ?

#BUFFERS 524288 # Maximum number of shared buffers
BUFFERS 262144 # Maximum number of shared buffers
#BUFFERS 131072 # SHMMAX set to 819200000
У вас 4Гб памяти. Установите параметры ядра, чтобы можно было сделать сегмент (и буферный пул ) больше. Хотя бы размером в 1Г.
Т.е. попробуйте сделать BUFFERS 512000
Но проверьте это сначала на тестовой машине с такой же версией ОС и IDS.
У вас может хорошо вырасти производительность, т.к. буферов не хватает и процент кеширования по чтению низкий.

NUMAIOVPS 32 (не был установлен). По умолчанию у вас их 128 (по удвоенному числу чанков). Это много и не нужно.

PHYSBUFF 32 # Physical log buffer size (Kbytes)
LOGBUFF 32 (64) # у вас небуферируемая БД, т.к. большой буфер вам просто не нужен - постоянная лишняя работа по обработке и сбросу пустого, практически, буфера.

CLEANERS 16 (8) - по статистике видно, что все 8 нагружены одинаково сильно. А желательно, чтобы был 1-2 свободных (у них кол-во операций на порядок-два меньше) для пиковых нагрузок.

SHMVIRTSIZE 131072 # initial virtual shared memory segment size
Здесь просканируйте свой online.log на предмет динамического добавления сегментов. Если такие попадались -лучше увеличить. Например до 256000 - памяти у вас девать некуда :)


CKPTINTVL 0 # Check point interval (in sec)
Об этом уже писал.
CKPTINTVL 300 или 600.

#LRUS 64 # Number of LRU queues
LRUS 256
В вашей версии максимум 128 (если не ошибаюсь).
Поэтому установите
LRUS 127

LRU_MAX_DIRTY 30 # LRU percent dirty begin cleaning limit
LRU_MIN_DIRTY 20 # LRU percent dirty end cleaning limit
Эти надо будет настроить, когда измените CKPTINTVL и промониторите длительности.

LTXHWM 45 (50) # Long transaction high water mark percentage
LTXEHWM 54 (60) # Long transaction high water mark (exclusive)
Много разз писал на эту тему. Поищите по форуму.

OFF_RECVRY_THREADS 1 (80) - надежнее
ON_RECVRY_THREADS 10

RA_PAGES 64 # Number of pages to attempt to read ahead
RA_THRESHOLD 32 # Number of pages left before next group
Read Ahead ("чтение наперед" большими блоками) ускоряет дисковое чтение при оследовательных просмотрах таблиц и индексов. Алгоритм интелектуален и не применяется для всех операций чтения с диском. Эффективность мониторится по onstat -p (последняя строка), при этом эффективным считается рубеж в 90% (как его вычислять смотрите в других FAQ).

DBSPACETEMP temp01,temp02 # Default temp dbspaces
Лучше сделать еще 1-2 временных пространства такого же размера, как и первые два.
У вас может помочь распараллелить сортировки и т.п.

OPTCOMPIND 2 # To hint the optimizer
тут рекомендую почитать. http://www.sql.ru/faq/faq_topic.aspx?fid=681
Есть много мнений в OLTP системах устанавливать 0
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36065198
АнатоЛой
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Может я и пропустил, и в топике это было, но тем не менее пусть сохранится для истории:
IDS Adm Guide (9.4)
Checkpoints Between Database Servers
Checkpoints between database servers in a replication pair are synchronous,
regardless of the value of DRINTERVAL.
A checkpoint on the primary database server completes only after it
completes on the secondary database server. If the checkpoint does not
complete within the time that the ONCONFIG parameter DRTIMEOUT
specifies, the primary database server assumes that a failure has occurred.
...
Рейтинг: 0 / 0
"Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
    #36065415
IDS admin
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
АнатоЛой,

В точку.

Только в случае длительного чекпойна на Secondary (как было в моем случае, 22 сек.)
на Primary сервере в Online.Log'е об этом ни слова.
А его последствия(кроме записи о себе в online.log) длятся до окончания чекпойнта на Secondary.
...
Рейтинг: 0 / 0
56 сообщений из 56, показаны все 3 страниц
Форумы / Informix [игнор отключен] [закрыт для гостей] / "Подвисает" OLTP на IDS 7.31. Чем (и как) узнать причину?
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]