|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
Доброго времени суток, коллеги! Есть RAC кластер на двух нодах. Версия Oracle 11g r2 11.2.0.4.0 PSU 190416. Случилось несчастье - первый нод внезапно умер. Как случилось не спрашивайте, меня привлекли в качестве консультанта после того как случилось и даже переставили ОС с чистого листа на умершем ноде. В целом все отработало нормально - второй нод доблестно взял на себя функции RAC и без ошибок тянет до сих пор. Передо мной встала на первый взгляд простая задача - вернуть нод в кластер. Все сделал по науке: http://www.dba-oracle.com/t_rac_remove_bad_node.htm . Ошибок не было. Оставалось дело за малым: addNode.sh, но возникла ошибка при выполнении root.sh на добавляемом ноде: Unable to retrieve local node number 1. Поискал решение в инете и нашел: http://mylearnings-db.blogspot.com/2015/04/rootsh-failed-with-clscfg-error-in.html Применил. Результат не изменился. Решил, что зря добавлял нод под старым именем, переименовал. Снова вычистил инфу и заново запустил addNode. Результат тот же. И тут глубоко копая логи увидел, что при добавлении нового нода СSSD обращается за конфигом кластера к ноду номер 1, то есть умершему ноду. Не находит его и падает с вышеуказанной ошибкой. Хотя в кластере его вроде как быть не должно и любая команда (crsctl, olsnodes) показывает, что в кластере есть только второй нод. Может кто-то сталкивался с подобным в практике, потому как на mysupport я подобного не нашел, а вешать им кейс уже вроде как поздно - 11g r2 теперь на extended support, которого у нас увы нет. ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2019, 17:35 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
PyroTechnic, Посмотри вот это - How to Remove/Delete a Node From Grid Infrastructure Clusterware When the Node Has Failed (Doc ID 1262925.1) ... |
|||
:
Нравится:
Не нравится:
|
|||
14.08.2019, 23:03 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
flexgenPyroTechnic, Посмотри вот это - How to Remove/Delete a Node From Grid Infrastructure Clusterware When the Node Has Failed (Doc ID 1262925.1) По сути, этот документ повторяет Бурлесона (или наоборот, Бурлесон повторяет документ). Я выполнил все предписания, и olsnodes -n выдает только второй нод (node number 2). Но когда я добавляю новый нод, он пытается связаться с первым нодом (node number 1) и падает с ошибкой. Более того, в логах второго нода (ocssd.log) есть такие строки: [ CSSD][2019374848]clssnmQueueClientEvent: Node[1] state = 0, birth = 0, unique = 0 [ CSSD][2019374848]clssnmQueueClientEvent: Node[2] state = 3, birth = 458950875, unique = 1563474051 [ CSSD][2019374848]clssnmQueueClientEvent: Node[3] state = 0, birth = 0, unique = 0 [ CSSD][2019374848]clssnmQueueClientEvent: Node[4] state = 1, birth = 0, unique = 1563480151 ... [ CSSD][2020951808]clssnmBldSendUpdate: stale member on disk, nodename ora-cl01 nodenum 1 DHB unique 0, syncSeqNo 458950879 Нод номер 3 - это отдельная песня. Он возникает после выполнения addNode.sh с именем кластера. Но он не проблема, потому как легко выпиливается по методу из 1262925.1. Получается, что первый нод все равно остается где-то глубоко в конфиге, и кластер по-прежнему считает его "мастер"-нодом, раз без него невозможно добавить остальные ноды. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 10:08 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
В предыдущем сообщении (предугадывая возможные вопросы) не совсем корректно выразился: нод номер 3 возникает сам по себе при выполнении addnode.sh и получает имя кластера. Конечно специально я такую глупость не делаю. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 10:16 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
А кто у тебя сейчас мастер нода? grep "OCR MASTER" $ORA_CRS_HOME/log/$HOST/crsd/crsd.l* живая нода перезагружалась? Надо заставить живую ноду стать мастером. что выдает olsnodes -n ? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 10:39 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
Тролин, [ OCRMAS][4213147392]th_master:12: I AM THE NEW OCR MASTER at incar 1. Node Number 2 По дате раньше, чем мои попытки добавить новый нод. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 10:44 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
если выполнить бэкап ocrconfig -manualbackup какой будет ответ утилиты? ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 10:47 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
Тролин, [root@ora-cl02 ~]# . oraenv ORACLE_SID = [root] ? +ASM2 The Oracle base has been set to /ORACLE/app/oracle [root@ora-cl02 ~]# ocrconfig -manualbackup ora-cl02 2019/08/15 11:22:05 /ORACLE/11.2.0/grid/cdata/ora-cl-cluster/backup_20190815_112205.ocr Сам файл тоже есть, если нужен. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 11:34 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
на добавляемой ноде запустить утилиту clufy с параметрами cluvfy comp peer -n rac2 -refnode rac1 -r 11gR2 cluvfy stage -pre nodeadd -n rac2 -fixup -verbose Должна показать проблемы если есть ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 14:00 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
параматры свои подставь! ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 14:02 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
Тролинна добавляемой ноде запустить утилиту clufy с параметрами cluvfy comp peer -n rac2 -refnode rac1 -r 11gR2 cluvfy stage -pre nodeadd -n rac2 -fixup -verbose Должна показать проблемы если есть на добавляемом ноде команда выдает ошибку, что для ее работы необходим сконфигурированный Grid. на втором ноде команда никаких существенных ошибок не дает, кроме swap, multicast и pdksh. ... |
|||
:
Нравится:
Не нравится:
|
|||
15.08.2019, 19:37 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
Похоже до запуска надо выставить правильный HOME GRID. Нужно добиться, чтобы утилита заработала. ... |
|||
:
Нравится:
Не нравится:
|
|||
16.08.2019, 08:45 |
|
Oracle 11g r2 RAC умер первый нод
|
|||
---|---|---|---|
#18+
Вернулся из отпуска, под Кипрским солнышком было очень не комфортно заниматься восстановлением кластера :) Перед самым отпуском я попробовал еще раз вогнать злополучный нод в кластер, но не вышло. В логах есть кое-что странное: хотя я загоняю нод командой Код: plsql 1.
, где ora-cl03 - имя нового нода, а ora-clv03 - его ВИП, который успешно разрешается в DNS, при выполнении root.sh в логах возникают вот такие строки (agent\crsd\oraagent_oracle\oraagent_oracle.log): Код: plsql 1. 2. 3. 4. 5. 6. 7. 8. 9.
catoracle03 - это DNS имя кластера, которое разрешается в 3 адреса. Опять же, нод пытается запуститься под этим именем (в аттаче - лог log\catoracle03\alertcatoracle03.log с сервера ora-cl03). Еще странный кусок лога ocssd.log: Код: plsql 1. 2. 3. 4. 5. 6. 7.
ora-cl01 - этот тот самый умерший первый нод. Почему я продолжаю натыкаться на его следы - не понимаю. Ну и собственно говоря сама ошибка root.sh: Код: plsql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
Вот такая текущая ситуация. ... |
|||
:
Нравится:
Не нравится:
|
|||
02.09.2019, 16:25 |
|
|
start [/forum/topic.php?fid=52&msg=39849666&tid=1882134]: |
0ms |
get settings: |
10ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
29ms |
get topic data: |
10ms |
get forum data: |
3ms |
get page messages: |
53ms |
get tp. blocked users: |
1ms |
others: | 276ms |
total: | 405ms |
0 / 0 |