|
|
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Всем доброго времени суток. Весьма продолжительное время бьемя с одной проблемой. После перезагрузки сервер не поднимается, уходит в восстановление. Теперь по порядку. Есть сервера. Процессоры Xeon, мат.платы Supermicro, ASUS. RAID-контроллеры LSI (Avago) разные с BBU и CashCade к ним экспандер, ибо дисков 14 + 2 ssd. ОС Win2012R2, Oracle 11.2.0.3 x64. На каждом сервере от 30 до 90 баз, в зависимости от объема райда и размера баз. Эти сервера "работают" очень весело. Пока никто их не трогает проблем нет. Начинается все при перезагрузке. Абсолютно непредсказуемо - поднимутся или нет. Может перезагрузиться нормально. Может уйти тут же в восстановление, из которого уже никогда не выходит. Что мы только не пробовали. Пытались восстановить загрузочную запись - ничего не вышло, сколько ни бились. Пытались выключать-включать CashCade - тоже не помогло. Пробовали перед перезагрузкой выключать все сервисы оракла - бесполезно. Софт ставили всякий и никакой зависимости от драйверов и прочего нет - так же может отвалиться, а может и нет. Вчера перезагрузили несколько серверов, примерно треть не поднялись - веселая работа поднимать две сотни баз в срочном порядке. Может кто-то сталкивался с таким поведением серверов БД, подскажите, пожалуйста, что с этим делать. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2018, 21:39 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Сразу говорю, не сталкивался с таким. Но вот это ekzarhОС Win2012R2, Oracle 11.2.0.3 x64. мне совсем не нравится. Во-первых Винда, во-вторых версия Oracle просит апгрейд. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2018, 23:16 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
flexgen, И кстати, все две сотни баз не поднимались по одной и той же причине? Или по разным? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 04.03.2018, 23:19 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
flexgenво-вторых версия Oracle просит апгрейд.Ага 11.2.0.3 не загружает винду. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2018, 00:21 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
ekzarhЕсть сервера. 1.мат.платы Supermicro, 2.Процессоры Xeon, 4. RAID-контроллеры LSI (Avago) разные с BBU и 5. CashCade к ним экспандер, ибо дисков 14 + 2 ssd. 6. ОС Win2012R2, 7. Oracle 11.2.0.3 x64. 8. На каждом сервере от 30 до 90 баз, в зависимости от объема райда и размера баз. ekzarhАбсолютно непредсказуемо - поднимутся или нет. Когда ты говоришь "поднимутся" - на какой цифре из твоего списка они зависают ? для начала отключи 7-8 и добейся устойчивой перезагрузки сервера. + сколько серверов и как они запитаны/охлаждаются? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2018, 01:07 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Для начала почитать логи ОС - что-то может быть есть информативное. Логи IPMI сервера - может быть там что-то есть. На железо накатить последние прошивки. Сделать образы систем и пытаться воспроизвести проблему на тестовом сервере. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2018, 11:24 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
30-90 экземпляров на одном сервере... Про винду не скажу, но на всяких юниксах это требует уже вдумчиво подходить к в количеству разделяемых ресурсов (семафоров, памяти) В любом случае, это должно быть намного сложнее чем обычные 1-5 экземпляров ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2018, 11:31 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
ekzarh, 1) 11.2.0.3 - не сертифицирован для W2012 2) Каждая ошибка имеет имя и фамилию, Что конкретно присходит? какие ошибки в alert.log и system events [телепат] Что-то мне подсказывает что при таком количестве баз, банально срабатывает timeout при запуске [/телепат] Что сделать: 1) рассмотреть насколько нужно иметь 30-90 экземпляров Расскажите для решения каких задач используются отдельные экземпляры, почему не использовать выделенные схемы вместо отдельного экземпляра? 2) Обновление хотя бы до 11.2.0.4, а лучше до 12.1.0.2, в этом случае, задача 1 может быть решена использованием PDB (но это потребует тестирование и дополнительной лицензии) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 05.03.2018, 11:57 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Vadim Lejninekzarh, 1) 11.2.0.3 - не сертифицирован для W2012 2) Каждая ошибка имеет имя и фамилию, Что конкретно присходит? какие ошибки в alert.log и system events [телепат] Что-то мне подсказывает что при таком количестве баз, банально срабатывает timeout при запуске [/телепат] Что сделать: 1) рассмотреть насколько нужно иметь 30-90 экземпляров Расскажите для решения каких задач используются отдельные экземпляры, почему не использовать выделенные схемы вместо отдельного экземпляра? 2) Обновление хотя бы до 11.2.0.4, а лучше до 12.1.0.2, в этом случае, задача 1 может быть решена использованием PDB (но это потребует тестирование и дополнительной лицензии) Собственно за прошедшее время было сделано следующее: 1. Ставил версию 12.2 (и 12.1 тоже). 2. На винду ставил все обновления, что положено. 3. Все новые дрова на все имеющиеся устройства, в том числе и на райд. Чаще всего система умирает, когда установил оракл и перезагрузил. ОС больше не грузится. Выдает экран восстановления, но это ни к чему не приводит. Я пробовал делать образы служебных разделов диска и загрузочной записи акронисом до установки оракла. После перезагрузки, когда сервер подыхал, я пробовал накатить на место "типа битых" разделов "рабочии копии" - бестолку. То есть - поведение абсолютно непредсказуемое. Может после первой перезагрузки помереть ОС. Может проработать долго без перезагрузок, но потом после перезагрузки помереть. Было даже такое. Сделали, все ровно работает, перезагружали 100 раз. Отключили, вставили в стойку, включили - экран восстановления. Все вышеописанное никак не зависит от того есть ли базы на сервере или нет. Достаточно софт поставить и получить мину замедленного (или не замедленного, как повезет) действия. Эта хрень у нас уже год почти и что делать неизвестно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 15:07 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
ekzarhчто делать неизвестно. менять консерваторию архитектуру. * уход от множества экземпляров в с торону multiteenant - обязательно * уход от винду к "взрослой" промышленной ОС - опционально ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 15:36 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
как вариант отключить сервисам автозапуск и стартовать их по-очереди, вручную после старта ОС ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 15:53 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
При чем тут архитектура и сервисы, если скорее всего железо сбоит или драйвера какие нибудь. IMHO ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 15:59 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Leonid KudryavtsevПри чем тут архитектура и сервисы, если скорее всего железо сбоит или драйвера какие нибудь. IMHO для диагностики этого телепатоф нема. а то что архитектура через одно место - видно невооруженным взглядом. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 16:18 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
У вас явно железячная проблема и с ораклом она никак не связана. Попробуйте на диски записать/удалить в цикле, раз 10, пачку фильмов 10 штук. Где то что то перетирает, запись на диски накладывается, экспандеры глючат, что то в этом духе. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 16:50 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
ОхрименкоУ вас явно железячная проблема и с ораклом она никак не связана. Попробуйте на диски записать/удалить в цикле, раз 10, пачку фильмов 10 штук. Где то что то перетирает, запись на диски накладывается, экспандеры глючат, что то в этом духе. Есть такая мысль и у самого, но только никак не получается найти закономерность. Драйвера какие только не пробовали. Контроллеры в серверах разные. То есть нечтно общее есть, но по факту есть и различия. А операционные системы сыпятся. Чтобы понятно было почему по 100 баз на серверах - каждая база есть разработочный стенд. Технология разработки такая. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 17:53 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
ОС и оракл на разных дисках? Как организованы диски, все в один RAID на котором нарезаны разделы под ОС и оракл отдельно? ASM не используете? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 18:28 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
ekzarh... То есть нечтно общее есть, но по факту есть и различия. А операционные системы сыпятся. Чтобы понятно было почему по 100 баз на серверах - каждая база есть разработочный стенд. Технология разработки такая. В смысле, у Вас и ОС падает после выключения? КМК, как на выключении, так и на старте 100 конкурирующих экземпляров создают такую нагрузку на систему, что ни остановится, ни стартовать они не могут... Службы отваливаются по timeout Попробуйте выключить автостарт, и запустить их последовательно, например так: Код: plsql 1. 2. 3. 4. 5. 1) Выполнять из cmd сессии as administrator 2) привёл команду с тестовым выводом, для выполнения команд тестовый вывод (выделенная команда echo) нужно удалить Для отключения autostart используйте команду, можно вставить в ту команду что и приводил SC CONFIG "OracleServiceD11" start= disabled ... ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 19:02 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Обрезалась строка, правильная команда: Код: plsql 1. 2. 3. 4. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 19:04 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Вадим, так режим восстановления запускается до старта всех процессов, до запуска Oracle дело даже не доходит. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 26.03.2018, 19:50 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Охрименко, Ага прочитал более внимательно, первоначально думал, что режим восстановления относится к oracle был не прав ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.03.2018, 09:14 |
|
||
|
Умирает сервер после перезагрузки
|
|||
|---|---|---|---|
|
#18+
Встречал несколько раз подобные проблемы с серверами: 1. Сервер с интегрированным контроллером lsi, мог работать несколько суток, потом синяк и ребилд рейда. Провозился несколько суток и отдал мать на экспертизу, вердикт - микротрещина. (мать заменили) 2. Сервер с внешним контроллером adaptec (к слову сказать тоже под оракл). Сервер жил от часа до нескольких суток, потом мат в dmesg, вываливание оракла и последующий ребилд массива. Итог - замена контроллера. 3. Контроллер adaptec 6й серии и ssd диски. Подключаю 2 ssd диска (kingston) - видит только 1. По отдельности - видит каждый. Меняю 1 кингстон на интел - все ок, видит 2. Собираю массив - ок (нужен был RAID 0). Дальше начинается чудеса как у ekzarh. Перепробовал все прошивки - результата 0. Выкинул второй кингстон - все стало хорошо. При этом эти 2 кингстона без проблемные и работают с другим железом. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 27.03.2018, 16:13 |
|
||
|
|

start [/forum/topic.php?fid=52&fpage=120&tid=1884236]: |
0ms |
get settings: |
7ms |
get forum list: |
9ms |
check forum access: |
2ms |
check topic access: |
2ms |
track hit: |
24ms |
get topic data: |
9ms |
get forum data: |
3ms |
get page messages: |
53ms |
get tp. blocked users: |
1ms |
| others: | 215ms |
| total: | 325ms |

| 0 / 0 |
