Новые сообщения [новые:0]
Дайджест
Горячие темы
Избранное [новые:0]
Форумы
Пользователи
Статистика
Статистика нагрузки
Мод. лог
Поиск
|
22.08.2014, 13:00
|
|||
---|---|---|---|
MT_EX_OS периодическое падение реплики |
|||
#18+
Добрый день. Помогите разобраться, почему (из-за чего) падает сервер. И как этого избежать в дальнейшем? В последний раз сервер упал в 5 часов утра, нагрузка в это время минимальная, пользователей почти нет. В прикрепленном файле приложен af файл. Т.к. архив занимает более 150 Кб - отрезал нижнюю часть файла. Реплика read only. sar во время падения показывал нагрузку 0,03% (99,97 % - idle) кусок online.log перед падением 05:41:27 Maximum server connections 331 05:41:27 Checkpoint Statistics - Avg. Txn Block Time 0.000, # Txns blocked 0, Plog used 760, Llog used 0 05:41:35 stack trace for pid 3740 written to /tmp/af.642d4e4f 05:41:35 Assert Failed: No Exception Handler 05:41:35 IBM Informix Dynamic Server Version 11.50.FC4 05:41:35 Who: Session(24207215, ok_app@tauris-12, -1, 0xc0eaf5bb0) Thread(24207429, sqlexec, c1bc860a8, 5) File: mtex.c Line: 491 05:41:35 Results: Exception Caught. Type: MT_EX_OS, Context: mem 05:41:35 Action: Please notify IBM Informix Technical Support. 05:41:35 See Also: /tmp/af.642d4e4f 05:41:42 Starting crash time check of: 05:41:42 1. memory block headers 05:41:42 2. stacks 05:41:42 Found bad stack; mt_stack address:fa64028 05:41:42 mtex.c, line 491, thread 24207429, proc id 3740, No Exception Handler. 05:41:43 Fatal error in ADM VP at mt.c:13836 05:41:43 Unexpected virtual processor termination, pid = 3740, exit = 0x100 05:41:43 PANIC: Attempting to bring system down 08:32:51 IBM Informix Dynamic Server Started. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
24.08.2014, 10:50
|
|||
---|---|---|---|
|
|||
MT_EX_OS периодическое падение реплики |
|||
#18+
Судя по стеку, сервер свалился во время выполнения closedb. Обычно здесь происходит освобождение ресурсов. По всей видимости, произошла попытка освобождения неиспользуемой памяти, что является багом. Сервер у вас стабильно работал 309 дней без перезагрузки, обычно рекомендуется периодически перезагружать сервер для профилактических целей, особенно вторичку. Если после перезагрузки сервер нормально поднялся и успешно синхронизировался с первичкой, по моему мнению причин для тревоги нет. Обращаться в техподдержку тоже нет смысла, поскольку у вас довольно старая версия и их стандартная рекомендация - проапгрейдится до актуальной версии. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
25.08.2014, 17:36
|
|||
---|---|---|---|
|
|||
MT_EX_OS периодическое падение реплики |
|||
#18+
11.50FC4 - там біла куча ошибок связанніх с репликацией как минимум рекомендую обновиться до 11.50FC6 версия довольно древняя, вашу проблему нужно искать в исправленніх ошибках, хотя там біла куча ошибок которіе не шли как АПАР ... |
|||
:
Нравится:
Не нравится:
|
|||
|
26.08.2014, 17:39
|
|||
---|---|---|---|
MT_EX_OS периодическое падение реплики |
|||
#18+
Спасибо всем за разъяснения и советы. Подскажите пожалуйста (если знаете), что значат строки, которые пишутся в файлы af.* после ....<signal frame>. Периодически на разных серверах создаются файлы af.*, но в них всегда разные причины. 0x0000003ed860e4c0 (Linux) <signal frame> 0x000000000059d790 (oninit) closesdb ......... ... |
|||
:
Нравится:
Не нравится:
|
|||
|
26.08.2014, 18:07
|
|||
---|---|---|---|
|
|||
MT_EX_OS периодическое падение реплики |
|||
#18+
после - єто только по тексту. Логически, сначала віполняются функции, указанніе ниже на closedb у меня свалился последний раз при закрітии сессии - днем біла ошибка, прошел алерт, вечером когда сессия закрівалась, сервер упал. у большинства, наверное, ассоциативно-интуитивное понимание названия функций хотя, на форуме есть люди, которіе знакомі с исходнім кодом ... |
|||
:
Нравится:
Не нравится:
|
|||
|
01.09.2014, 06:35
|
|||
---|---|---|---|
MT_EX_OS периодическое падение реплики |
|||
#18+
Стек в общем типичный и достоверно диагностировать проблему только лишь глядя на него не представляется возможным. Если сделать disas для closedb(), то наверняка мы увидим, что пытались обратиться по некорректному адресу. Сопоставив ассемблерный код с исходным, можно определить что это была за структура/переменная. Но без дампа дальше продвинуться будет скорее всего невозможно. DUMPSHMEM у вас 0, значит дампа памяти нет. Что делала сессия непосредственно перед падением, тоже не ясно (хотя вероятно есть что-то 'onstat -g sql' в отрезанной части файла): Код: sql 1. 2. 3. 4. 5. 6.
Учитывая все это, и если эта проблема не происходит регулярно или же Вы можете ее воспроизвести, поддержка скорее всего предложит перейти на новую версию. К сведению, 11.50.FC4 вышла 04/2009, 11.50.FC9W3 (последний релиз в ветке 11.50 на текущий момент) - 04/2013. ... |
|||
:
Нравится:
Не нравится:
|
|||
|
|
start [/forum/topic.php?fid=44&mobile=1&tid=1606934]: |
0ms |
get settings: |
26ms |
get forum list: |
14ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
49ms |
get topic data: |
14ms |
get forum data: |
3ms |
get page messages: |
184ms |
get tp. blocked users: |
2ms |
others: | 288ms |
total: | 588ms |
0 / 0 |