Выяснить виновника долгого запроса (валящего базу)... / IBM DB2, WebSphere, IMS, U2

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / IBM DB2, WebSphere, IMS, U2 [игнор отключен] [закрыт для гостей] / Выяснить виновника долгого запроса (валящего базу)...

3 сообщений из 3, страница 1 из 1

Выяснить виновника долгого запроса (валящего базу)...

#38672027

medoed

Участник

Сообщения: 818

Рейтинг: 0 / 0

Добрый день!
Есть вредный запрос, который валит базу (кто то наверное where забыл написать) я не админ, но разобраться хочется...
Есть мониторы, которые показывают долгие запросы, но они на момент зависания тоже зависли колом...
Админ сказал, что отожрано 2-ва гига дискового пространства под запросы и все, база раком встала.

Можно ли по логам базы понять, кто отожрал эти два гига (какой запрос, процесс) и как эти логи посмотреть.
Сорри, за глупый вопрос, но я не админ (программист), прошу понять и простить!
DB2 Version 9.7 (Windows).

...

Рейтинг:

0 / 0

17.06.2014, 16:42:38

| Ответить | Цитировать | Написать

Выяснить виновника долгого запроса (валящего базу)...

#38672356

CawaSPb

Участник

Откуда: Питер/Москва/Wroclaw

Сообщения: 787

Рейтинг: 0 / 0

medoed,

Если хочется разобраться, то это всегда пожалуйста.

Первое, что надо понять, это что такое "отожрано 2 гига" и что такое "встало колом". То, что Вы должны уточнить у своего админа.
Взаимосвязь между этими двумя событиями подсказывает, что выжрано пространство журналов транзакций.

Максимальный размер этого пространства определяется индивидуальным размером файлов журналов (параметр LOGFILSIZ БД), и ограничением на количество журналов LOGPRIMARY (заранее выделенный пул активных журналов) + LOGSECOND (лимит на возможное количество создаваемых дополнительных активных журналов).

В активных журналах СУБД регистрирует _все_ действия по изменениям данных (за некоторыми исключениями, которые не будем сейчас рассматривать), включая изменения данных каталога (описывающих структуру БД).

Информация о _всех_ незакоммиченных транзакциях полностью содержится в активных журналах. Поэтому, если подойти к серваку и просто выключить рубильник (аналог - db2_kill), при следующем старте СУБД проведёт процесс Recovery базы по этим самым журналам, гарантированно сохранив все закомиченные транзакции и откатив незакоммиченные.

Общий размер журналов определяет возможное время рестарта базы после крэша и максимальное время отката транзакций (задавая лимит на собственно размер транзакций).
Для OLTP систем долгие времена по этим операциям критичны, поэтому задрать лимит на размер журналов ("логов", как их называют, что иногда вносит некоторую путаницу в понимании) - во многих случаях не выход ( тем более, что причины, порождающие переполнение журналов, могут быть такими, что увеличение размера не приведёт к желаемому результату ).

Как журналы перестают быть активными.

БД может функционировать в двух режимах:
а) Используя циркулярный механизм логирования - файлы журналов переиспользуются, заменяясь по кругу.
б) Механизм с архивированием журналов - по факту перехода в статус архивных журналы сохраняются тем или иным способом (переносятся в отдельные каталог(и), в систему хранения, на ленточку или ещё куда).

Журнал может быть переиспользован в режиме циркулярных логов или перенесён в архив, _только_ перестав быть активным.
Активным журнал перестаёт быть только тогда, когда все транзакции, данные о которых хранятся в журнале закоммичены или откачены.
Журналы архивируются/отдаются на переиспользование строго в порядке нумерации (по природе механизмов работы с журналами).

Итого, имеем два варианта, при которых журналы могут переполниться:
1. Слишком большая транзакция (кто-то забыл проставить условие в where на updat'e в многомиллионной таблице).
2. Кто-то забыл сделать коммит (на практике встречается чаще), залезши "руками" в базу.

В первом случае всё понятно.
Во втором наполняет журналы отнюдь не виновник, а текущая операционная деательность. Виновник только "держит" журналы, не давая им уйти в архив.

И то, и другое для операционных баз недопустимо.

Что же со всем этим делать, учитывая, что переполнение журналов останавливает нормальную деятельность СУБД.

1. В случае слишком большой транзакции СУБД, в принципе, справляется с ситуацией сама. Обнаруженный виновник отстреливается, хотя для резрешения ситуации и требуется время на откат транзакции.
Во время "коллапса" все операции на изменения данных будут сопровожлаться сообщениями типа SQL0964C (Transaction Log Full).

2. Вся информация по событиям переполнения журналов будет указана в db2diag.log файле. По нему можно определить время, в течение которого база была недоступна. Там же указан и application handle виновника проблемной ситуации.
Нужно его немедленно пристрелить:

Код: plaintext

db2 "force application ( <app-handle> )"

Предварительно сняв снапшот:

Код: plaintext

db2 get snapshot for application agentid  <app-handle>  | tee log_is_full_report.txt

В снапшоте будет более подробная информация про негодяя (в большинстве случаев включая и последний выполненный запрос). Там много чего, что может нас интересовать.

3. Для разбора полётов пост-фактум очень хорошо иметь на базе как минимум включённый event monitor на connections (для продуктивных баз я бы сказал, что это must have). Заметной нагрузки это не создаст, но сильно поможет как в этой, так и в множестве других ситуаций.
CONNECTION монитор (как и вовремя снятый application snapshot) позволит выявить id пользователя, аккаунт, откуда и из какого приложения коннектился и т.п. Даже если не удастся полностью локализовать проблему, это даст информацию для старта.

4. Превентивные меры.
а) Можно выставить параметры БД MAX_LOG (максимальное пространство журналов, отдаваемое одной транзакции в процентах от LOGPRIMARY) и NUM_LOG_SPAN (по какому количеству журналов транзакция может быть размазана). Это может помочь в ситуации больших транзакций (но и реально уменьшит доступное транзакции пространство, что не всегда допустимо).

б) Периодически проверять запросом количество используемых журналов и отстреливать самую старую транзакцию (это всегда и есть виновник переполнения в варианте "забытый commit"):

Код: sql

1.
2.
3.
4.

select 'db2 get snapshot for application agentid ' || rtrim(char(appl_id_oldest_xact)) || ';'
    || 'db2 force applications (' || rtrim(char(appl_id_oldest_xact)) || ')'
from SYSIBMADM.SNAPDB
where sec_logs_allocated > NNN

где NNN - количество использованных Secondary Logs, которое можно считать критическим.

PS На самом деле есть ещё один режим работы с журналами - режим неограниченого логирования. Включается установкой LOGSECOND в -1. При этом активные журналы сверх заданного logprimary лимита начинают отправляться в архив и при необходимости извлекаться. Играясь с MAX_LOG и NUM_LOG_SPAN можно при этом добиться разумного времени отката индивидуальных транзакций, но всё равно ряд операций при этом замедлится и общее время recovery БД может неограничено вырасти.

...

Рейтинг:

0 / 0

17.06.2014, 20:45:56

| Ответить | Цитировать | Написать

Выяснить виновника долгого запроса (валящего базу)...

#38672433

medoed

Участник

Сообщения: 818

Рейтинг: 0 / 0

CawaSPb,
Спасибо, буду курить и разбираться. Толково расписали вы все...
Прям почувствовал себя первоклашкой.

...

Рейтинг:

0 / 0

17.06.2014, 23:17:16

| Ответить | Цитировать | Написать

3 сообщений из 3, страница 1 из 1

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=43&fpage=25&tid=1601055]:	0ms
get settings:	7ms
get forum list:	14ms
check forum access:	3ms
check topic access:	3ms
track hit:	23ms
get topic data:	10ms
get forum data:	3ms
get page messages:	45ms
get tp. blocked users:	2ms
others:	213ms

total:	323ms

	Необходимые cookie
	Cookie для сбора статистики
	Cookie для маркетинга и рекламы