|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Здраствуйте товарищи ! Имеется: - Informix 11.50FC8W2 на CentOS 5.5 - Разумеется "ничего не менялось" - Через некоторе время после перезапуска (от едениц до десятков часов) начинаются тормоза при записи, что обычным пользователям незаметно, но видно нам по разрастанию очередей у разных демонов обрабатывающих всякие логи - В onstat -g ckp картина такая - КТ почти каждую секунду Изыскания что за причина такая Llog дали почти ничего - фразу из справочника админа Running out of logical log resources Какие такие ресурсы ? Буфера логов ? Сами логи ? Успешно ротейтятся кстати (все U-B---- кроме текущего U---C-L) Вобщем моск отказал. Или я торможу и что-то очень простое. Какие параметры интересны - спрашивайте. ("весь конфиг", "onstat -a" не дам) onstat -l Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
oncheck -g ckp Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29.
... |
|||
:
Нравится:
Не нравится:
|
|||
07.02.2012, 21:58 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Яковлев Павел, У вас параметр RTO_SERVER_RESTART=180 seconds что может быть причиной частых контрольных точек. Предлагаю для начала совсем отключить его и посмотреть как это скажется на частоте КТ. RTO_SERVER_RESTART and its effect on checkpoints The RTO_SERVER_RESTART configuration parameter specifies the amount of time, in seconds, that Informix® has to recover from an unplanned outage. ... The performance disadvantages of enabling this configuration parameter are: Increased physical log activity which might slightly impact transaction performance Increased checkpoint frequency , because the physical log space is depleted more quickly (You can increase the size of the physical log to avoid the increase in checkpoint frequency.) ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2012, 08:39 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Физический журнал я смотрю немаленький: Physical Logging Buffer bufused bufsize numpages numwrits pages/io P-2 25 256 6501191 153521 42.35 phybegin physize phypos phyused %used 11:53 7864320 3581499 184 0.00 Какой размер у отдельного файла логического журнала? параметр LOGSIZE ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2012, 08:53 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
AndronЯковлев Павел, У вас параметр RTO_SERVER_RESTART=180 seconds что может быть причиной частых контрольных точек. Предлагаю для начала совсем отключить его и посмотреть как это скажется на частоте КТ. При контрольных точках требующихся для поддержания RTO причина так и называется - RTO А тут Llog :( Но отключение RTO одни из пунктов в плане "что-бы-такое-отломать-что-бы-таки-заработало" ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2012, 22:00 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
AndronФизический журнал я смотрю немаленький: Physical Logging Buffer bufused bufsize numpages numwrits pages/io P-2 25 256 6501191 153521 42.35 phybegin physize phypos phyused %used 11:53 7864320 3581499 184 0.00 Какой размер у отдельного файла логического журнала? параметр LOGSIZE Да, размер physlog ставился что бы Informix отвязался со своими рекомендациями + следуя совету про 110% от размера буферов Данные о logical log Код: plaintext 1. 2. 3. 4.
Так стоит уже с год. А траблы свежие. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2012, 22:04 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
И все таки Какой размер у отдельного файла логического журнала? параметр LOGSIZE Может быть журналы слишком малы и поэтому происходит частый чекпоинт, при переключении очередного журнала. ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2012, 22:05 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Яковлев Павел, Спросил когда ты уже ответил :) Журналы тоже немаленькие А какой характер работы с базой? Может какие то lob'ы (или lvarchar к примеру) часто и много в базу пишутся (стали писаться)? ... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2012, 22:09 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
AndronЖурналы тоже немаленькие А какой характер работы с базой? Может какие то lob'ы (или lvarchar к примеру) часто и много в базу пишутся (стали писаться)? От посетилей сайт мелкие транзакции по их данным. От демонов - обработка разных логов, но тут таблицы без lob и строчки не особо большие. Транзакции собираются из действий по обработке строк логов ( 1-2 тысяч строк на транзакцию). insert/update. Есть одна часть с регулярной вставкой byte и в пару к ней с удалением старых byte, но не там не мега-объёмы. И фигня в том что все эти нагрузки по дню равномерны. А время через которое база оказывается в описанном состоянии - пока выглядит произвольным. Вот кстати пример начала работы после перезапуска - интервалы 3-5 минут, а не каждую секунду Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2012, 22:25 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Вот кстати пример со срывом в штопор С 9:47 до 12:07 вообще без КТ. Потом пара точек с интервавлом в 2.5 часа от RTO. И потом через почти два часа и одну промежуточную точку начинается цирк. Я сейчас коплю onstat-a раз в пару минуту, что бы тупо делать diff в момент начала проблемы. Но тут надо ещё добраться исследовать на что блин времени не хватает. Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24.
... |
|||
:
Нравится:
Не нравится:
|
|||
08.02.2012, 22:30 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Обновить до 11.50.xC9 которая вышла еще в прошлом году ? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.02.2012, 08:52 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Кстати приведи вывод onstat -u |grep -v Y в момент возникновения проблемы. Логи в момент проблемы часто переключаются? ... |
|||
:
Нравится:
Не нравится:
|
|||
09.02.2012, 08:56 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Что-то такое біло, но правда давно: http://www-01.ibm.com/support/docview.wss?uid=swg1IC61144 а срепликациями что у вас?9903 ... |
|||
:
Нравится:
Не нравится:
|
|||
09.02.2012, 11:51 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
IMHO слишком маленький размер файлов журнала. Вместо 500 по 20000 сделай 50 по 200000. А лучше обратитесь в поддержку ;-) ... |
|||
:
Нравится:
Не нравится:
|
|||
09.02.2012, 20:55 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
ifmx_supportIMHO слишком маленький размер файлов журнала. Вместо 500 по 20000 сделай 50 по 200000. А обоснование ? ifmx_supportА лучше обратитесь в поддержку ;-) ifmx_suport уже помогает :) ... |
|||
:
Нравится:
Не нравится:
|
|||
09.02.2012, 22:43 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
яфшуеіЧто-то такое біло, но правда давно: http://www-01.ibm.com/support/docview.wss?uid=swg1IC61144 а с репликациями что у вас?9903 спасибо за наводку но не то - вообще индексов не делаем на временных таблицах если репликация это ER то почти ничего - была для теста, а сейчас давно уже все replset-ы удалены, а парный сервер загашен. ... |
|||
:
Нравится:
Не нравится:
|
|||
09.02.2012, 22:46 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
AndronОбновить до 11.50.xC9 которая вышла еще в прошлом году ? пока не вариант - там нет ничего нам интересного, а обновить "может там ЭТОГО нет" - пока не на столько отчаился :) хотца таки до причины докопаться AndronКстати приведи вывод onstat -u |grep -v Y в момент возникновения проблемы. Логи в момент проблемы часто переключаются? Нет - лог один и тот же (клонка LSN до двоеточия) но в нём 100500 КТ в приложении запрошеный onstat -u для листинга КТ который в моём ответе от 8го в 22:30 (тот что с парой RTO) время снятия onstat -u - 16:09 - за час до начала траблов ... |
|||
:
Нравится:
Не нравится:
|
|||
09.02.2012, 22:53 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
а вот onstat -u для времени 17:08 - когда тока-тока попёрло раз в секунду ... |
|||
:
Нравится:
Не нравится:
|
|||
09.02.2012, 22:55 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Посмотрел приложенный onstat -u, вполне коррелирует с выводом onstat -g ckp, много нитей ждут на чекпоинте. Но что интересно, нить Btree scanner имеет просто таки большое кол-во чтений nreads: 395ffa9c8 ---P--B 616 ******** - 0 0 0 913350569 608541 и если связать это как то с тем что ранее написал яфшуеі про http://www-01.ibm.com/support/docview.wss?uid=swg1IC61144 то напрашивается вывод что возможно имеет место баг? На моих серверах Informix с uptime в неск.месяцев нигде нет такого большого значения для чистильщика индексов, хотя пользователи активно работают с данными. Какой uptime у твоего информикса? Как часто в выводе onstat -g act есть нитка Btree когда возникает проблема а также когда проблемы нет? Еще бы неплохо вывод onstat -C ... |
|||
:
Нравится:
Не нравится:
|
|||
10.02.2012, 08:40 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Мой пост насчет большого значения nreads для Btree сканера возможно не в тему, я не учел что у меня на серверах сбрасывается системная статистика каждые сутки. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.02.2012, 11:12 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Яковлев Павел, HDR используете? ... |
|||
:
Нравится:
Не нравится:
|
|||
10.02.2012, 12:39 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
AndronПосмотрел приложенный onstat -u, вполне коррелирует с выводом onstat -g ckp, много нитей ждут на чекпоинте. Но что интересно, нить Btree scanner имеет просто таки большое кол-во чтений nreads: 395ffa9c8 ---P--B 616 ******** - 0 0 0 913350569 608541 и если связать это как то с тем что ранее написал яфшуеі про http://www-01.ibm.com/support/docview.wss?uid=swg1IC61144 то напрашивается вывод что возможно имеет место баг? На моих серверах Informix с uptime в неск.месяцев нигде нет такого большого значения для чистильщика индексов, хотя пользователи активно работают с данными. Какой uptime у твоего информикса? Как часто в выводе onstat -g act есть нитка Btree когда возникает проблема а также когда проблемы нет? Еще бы неплохо вывод onstat -C в тему - не в тему но отвечу сейчас аптайм 14 часов (это я перезапускал что бы получить момент просветления. до начала проблем он приближался к году) нить сканёра то есть то нет onstat -c Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
совсем в теории ему есть чего делать - перед новым годом мы заводит новый dbspacе log.20xx и настраиваем туда по условию порции таблиц и индексов для тех логов которые хорошо делятся по годам (а не нужный поза-поза-прошлый год архивируем и отстреливаем) это вполне может вызвать нужду в перетасовке индексов но уже февраль и все процессы давно закончится должны были других причин массово менять индексы нет ... |
|||
:
Нравится:
Не нравится:
|
|||
10.02.2012, 13:48 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
DrGonzoHDR используете? нет ... |
|||
:
Нравится:
Не нравится:
|
|||
10.02.2012, 13:49 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Когда-то задался целью хранить историю к.т. просмотрел у себя историю с 2010-01-27 Ни одной к.т. по Trigger llog не нашел. Правда, у меня подход к к.т. немного другой и система судя по всему отличается. 11.50.FC5W2 AUTO_CKPTS=Off RTO_SERVER_RESTART=Off РТО не использую, так как он не учитывает длину транзакции, а то, что он пишет дополнительно в физ журнал - как-то так скользко сказано. Во всяком случае, документация пока не убедила меня, возможно кто-то даст примеры для сравнения. Как по мне более критично именно логическое восстановление. Поэтому, согласно требованиям системы выставляем CKPTINTVL и устанавливаем LTXHWM. Так выглядит значительно проще для понимания что и как настроено, во всяком случае для себя. Еще момент у меня DYNAMIC_LOGS 0 У вас с физ. журалом интенсивность чуток поболее чем у меня. А при включенном RTO туда больше пишется. IBM дал краткое описание что такое llog, но как всегда - далеко не полное. Хотя б расписали при каких условиях. Возможно, что єто и AUTO_CKPTS так сказівается, описание как оно там все учитывается довольно расплывчатое. Как вариант - может ДМ притормаживать и механизм AUTO_CKPTS посчитает что нужно чаще. Попробуйте вернуться на старый подход по определению интенсивности к.т. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.02.2012, 15:10 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
ну чтожжжж решение нейтрализующие проблему найдено (яфшуеі тоже верно наметил куда копать но только на 15 часов позже :) ) в очередной раз перечитывая " Non-blocking checkpoints in Informix Dynamic Server " таки повнимательнее прочёл про AUTO_CKPTS (раньше оказывается не сознавал что он сам по себе а не часть RTO) Код: plaintext 1. 2. 3.
Получается что параметр разрешает КТ на основе "прошлой производительности КТ". И так как других кандидатов на КТ по причине Llog в перовом часу ночи не было, то я AUTO_CKPTS и отключил (RTO осталось). Судя по всему (листинг внизу) - угадал. Получается что checkpoint с причиной Llog это деятельность AUTO_CKPTS . К сожалению, почему у меня оно сошло с ума остаётся неясным. Попробую вытянуть из саппорта детали как оно устроено. Получится - напишу. Буду сидеть с AUTO_CKPTS=0 и делать КТ сам тупо по крону и/или при ротации логов. Месяца через 2-3 попробую из любопытства вернуть - вдруг "история производительности КТ" как-то волшебно прочистится (или покопаюсь с системных таблицах где там история эта прячится). Вот текущий onstat -g ckp - просто загляденье Код: plaintext 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40.
спасибо за попытки помочь. ... |
|||
:
Нравится:
Не нравится:
|
|||
10.02.2012, 22:38 |
|
Частые контрольные точки с причиной Llog
|
|||
---|---|---|---|
#18+
Прошу прощения за наивный вопрос, но все же: Традиционный параметр CKPTINTVL в вашей версии уже не актуален ? P.S. Как то стрЁмно видеть КТ с интервалом в 2 часа при активно работающей системе... ... |
|||
:
Нравится:
Не нравится:
|
|||
13.02.2012, 14:16 |
|
|
start [/forum/topic.php?fid=44&msg=37652729&tid=1607198]: |
0ms |
get settings: |
23ms |
get forum list: |
13ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
61ms |
get topic data: |
15ms |
get forum data: |
3ms |
get page messages: |
630ms |
get tp. blocked users: |
2ms |
others: | 17ms |
total: | 772ms |
0 / 0 |