powered by simpleCommunicator - 2.0.53     © 2025 Programmizd 02
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Oracle 11g r2 RAC умер первый нод
13 сообщений из 13, страница 1 из 1
Oracle 11g r2 RAC умер первый нод
    #39849392
PyroTechnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Доброго времени суток, коллеги!

Есть RAC кластер на двух нодах. Версия Oracle 11g r2 11.2.0.4.0 PSU 190416. Случилось несчастье - первый нод внезапно умер. Как случилось не спрашивайте, меня привлекли в качестве консультанта после того как случилось и даже переставили ОС с чистого листа на умершем ноде. В целом все отработало нормально - второй нод доблестно взял на себя функции RAC и без ошибок тянет до сих пор. Передо мной встала на первый взгляд простая задача - вернуть нод в кластер. Все сделал по науке: http://www.dba-oracle.com/t_rac_remove_bad_node.htm . Ошибок не было.
Оставалось дело за малым: addNode.sh, но возникла ошибка при выполнении root.sh на добавляемом ноде:
Unable to retrieve local node number 1.
Поискал решение в инете и нашел: http://mylearnings-db.blogspot.com/2015/04/rootsh-failed-with-clscfg-error-in.html
Применил. Результат не изменился. Решил, что зря добавлял нод под старым именем, переименовал. Снова вычистил инфу и заново запустил addNode. Результат тот же.
И тут глубоко копая логи увидел, что при добавлении нового нода СSSD обращается за конфигом кластера к ноду номер 1, то есть умершему ноду. Не находит его и падает с вышеуказанной ошибкой. Хотя в кластере его вроде как быть не должно и любая команда (crsctl, olsnodes) показывает, что в кластере есть только второй нод.
Может кто-то сталкивался с подобным в практике, потому как на mysupport я подобного не нашел, а вешать им кейс уже вроде как поздно - 11g r2 теперь на extended support, которого у нас увы нет.
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849531
flexgen
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
PyroTechnic,

Посмотри вот это - How to Remove/Delete a Node From Grid Infrastructure Clusterware When the Node Has Failed (Doc ID 1262925.1)
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849602
PyroTechnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
flexgenPyroTechnic,

Посмотри вот это - How to Remove/Delete a Node From Grid Infrastructure Clusterware When the Node Has Failed (Doc ID 1262925.1)

По сути, этот документ повторяет Бурлесона (или наоборот, Бурлесон повторяет документ). Я выполнил все предписания, и olsnodes -n выдает только второй нод (node number 2). Но когда я добавляю новый нод, он пытается связаться с первым нодом (node number 1) и падает с ошибкой. Более того, в логах второго нода (ocssd.log) есть такие строки:
[ CSSD][2019374848]clssnmQueueClientEvent: Node[1] state = 0, birth = 0, unique = 0
[ CSSD][2019374848]clssnmQueueClientEvent: Node[2] state = 3, birth = 458950875, unique = 1563474051
[ CSSD][2019374848]clssnmQueueClientEvent: Node[3] state = 0, birth = 0, unique = 0
[ CSSD][2019374848]clssnmQueueClientEvent: Node[4] state = 1, birth = 0, unique = 1563480151
...
[ CSSD][2020951808]clssnmBldSendUpdate: stale member on disk, nodename ora-cl01 nodenum 1 DHB unique 0, syncSeqNo 458950879
Нод номер 3 - это отдельная песня. Он возникает после выполнения addNode.sh с именем кластера. Но он не проблема, потому как легко выпиливается по методу из 1262925.1.
Получается, что первый нод все равно остается где-то глубоко в конфиге, и кластер по-прежнему считает его "мастер"-нодом, раз без него невозможно добавить остальные ноды.
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849606
PyroTechnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
В предыдущем сообщении (предугадывая возможные вопросы) не совсем корректно выразился: нод номер 3 возникает сам по себе при выполнении addnode.sh и получает имя кластера. Конечно специально я такую глупость не делаю.
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849623
Тролин
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
А кто у тебя сейчас мастер нода?
grep "OCR MASTER" $ORA_CRS_HOME/log/$HOST/crsd/crsd.l*

живая нода перезагружалась? Надо заставить живую ноду стать мастером.

что выдает olsnodes -n ?
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849627
PyroTechnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Тролин,

[ OCRMAS][4213147392]th_master:12: I AM THE NEW OCR MASTER at incar 1. Node Number 2
По дате раньше, чем мои попытки добавить новый нод.
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849630
Тролин
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
если выполнить бэкап
ocrconfig -manualbackup

какой будет ответ утилиты?
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849666
PyroTechnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Тролин,

[root@ora-cl02 ~]# . oraenv
ORACLE_SID = [root] ? +ASM2
The Oracle base has been set to /ORACLE/app/oracle
[root@ora-cl02 ~]# ocrconfig -manualbackup

ora-cl02 2019/08/15 11:22:05 /ORACLE/11.2.0/grid/cdata/ora-cl-cluster/backup_20190815_112205.ocr


Сам файл тоже есть, если нужен.
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849777
Тролин
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
на добавляемой ноде запустить утилиту clufy с параметрами


cluvfy comp peer -n rac2 -refnode rac1 -r 11gR2

cluvfy stage -pre nodeadd -n rac2 -fixup -verbose


Должна показать проблемы если есть
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39849779
Тролин
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
параматры свои подставь!
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39850011
PyroTechnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Тролинна добавляемой ноде запустить утилиту clufy с параметрами


cluvfy comp peer -n rac2 -refnode rac1 -r 11gR2

cluvfy stage -pre nodeadd -n rac2 -fixup -verbose


Должна показать проблемы если есть

на добавляемом ноде команда выдает ошибку, что для ее работы необходим сконфигурированный Grid.
на втором ноде команда никаких существенных ошибок не дает, кроме swap, multicast и pdksh.
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39850141
Тролин
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Похоже до запуска надо выставить правильный HOME GRID. Нужно добиться, чтобы утилита заработала.
...
Рейтинг: 0 / 0
Oracle 11g r2 RAC умер первый нод
    #39856368
PyroTechnic
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Вернулся из отпуска, под Кипрским солнышком было очень не комфортно заниматься восстановлением кластера :)
Перед самым отпуском я попробовал еще раз вогнать злополучный нод в кластер, но не вышло. В логах есть кое-что странное: хотя я загоняю нод командой
Код: plsql
1.
./addNode.sh "CLUSTER_NEW_NODES={ora-cl03}" "CLUSTER_NEW_VIRTUAL_HOSTNAMES={ora-clv03}"

, где ora-cl03 - имя нового нода, а ora-clv03 - его ВИП, который успешно разрешается в DNS, при выполнении root.sh в логах возникают вот такие строки (agent\crsd\oraagent_oracle\oraagent_oracle.log):
Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
...
[ora.asm][3484940032]{4:46862:2} [check] AsmProxyAgent::createAsmOcrKeys host: catoracle03 oracleSid_lc: +asm4 oracleSid_uc: +ASM4 tempHost1: catoracle03.+asm4
...
[ USRTHRD][3456186112]{4:46862:2} checkCrsStat 2 CLSCRS_STAT ret: 200
[ USRTHRD][3456186112]{4:46862:2} checkCrsStat 2 clscrs_res_get_op_status CLSCRS_STAT status 210 err_msg CRS-0210: Could not find resource 'ora.catoracle03.vip'.
[ USRTHRD][3456186112]{4:46862:2} CrsCmd::ClscrsCmdData::destroy
[ USRTHRD][3456186112]{4:46862:2} CrsCmd::destroy
[ USRTHRD][3456186112]{4:46862:2} Warning, could not get the node VIP address
[ USRTHRD][3456186112]{4:46862:2} AsmCommonAgent: Getting local vip failed. 


catoracle03 - это DNS имя кластера, которое разрешается в 3 адреса. Опять же, нод пытается запуститься под этим именем (в аттаче - лог log\catoracle03\alertcatoracle03.log с сервера ora-cl03).
Еще странный кусок лога ocssd.log:
Код: plsql
1.
2.
3.
4.
5.
6.
7.
...
[    CSSD][274667328]clssnmlgetslot:lease acquisition for node ora-cl03/slot 4 completed in 5020 msecs
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 1, ora-cl01, has a disk HB, but no network HB, DHB has rcfg 457458927, wrtcnt, 131311990, LATS 752764, lastSeqNo 0, uniqueness 1563471816, timestamp 1563472808/1029594
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 2, ora-cl02, has a disk HB, but no network HB, DHB has rcfg 461369005, wrtcnt, 101375741, LATS 752764, lastSeqNo 0, uniqueness 1565892180, timestamp 1565893636/1195464
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 3, catoracle03, has a disk HB, but no network HB, DHB has rcfg 457458913, wrtcnt, 467, LATS 752764, lastSeqNo 0, uniqueness 1563448955, timestamp 1563449421/235354534
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 4, ora-cl03, has a disk HB, but no network HB, DHB has rcfg 458950885, wrtcnt, 41248, LATS 752764, lastSeqNo 0, uniqueness 1565893619, timestamp 1565884699/4294744180
[   SKGFD][274667328]Lib :UFS:: closing handle 0x27db3d0 for disk :/dev/oracleasm/disks/ORADATA02: 


ora-cl01 - этот тот самый умерший первый нод. Почему я продолжаю натыкаться на его следы - не понимаю.
Ну и собственно говоря сама ошибка root.sh:
Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
[root@ora-cl03 grid]# ./root.sh
Performing root user operation for Oracle 11g

The following environment variables are set as:
    ORACLE_OWNER= oracle
    ORACLE_HOME=  /ORACLE/11.2.0/grid

Enter the full pathname of the local bin directory: [/usr/local/bin]: /usr/bin
The contents of "dbhome" have not changed. No need to overwrite.
The contents of "oraenv" have not changed. No need to overwrite.
The contents of "coraenv" have not changed. No need to overwrite.


Creating /etc/oratab file...
Entries will be added to the /etc/oratab file as needed by
Database Configuration Assistant when a database is created
Finished running generic part of root script.
Now product-specific root actions will be performed.
Using configuration parameter file: /ORACLE/11.2.0/grid/crs/install/crsconfig_params
User ignored Prerequisites during installation
Installing Trace File Analyzer
OLR initialization - successful
Adding Clusterware entries to oracle-ohasd.service
CRS-4402: The CSS daemon was started in exclusive mode but found an active CSS daemon on node ora-cl02, number 2, and is terminating
An active cluster was found during exclusive startup, restarting to join the cluster
Unable to retrieve local node number 1.
Internal Error Information:
  Category: 0
  Operation:
  Location:
  Other:
  Dep: 0
clscfg: Error in retrieving own node information
/ORACLE/11.2.0/grid/bin/clscfg -add failed
/ORACLE/11.2.0/grid/perl/bin/perl -I/ORACLE/11.2.0/grid/perl/lib -I/ORACLE/11.2.0/grid/crs/install /ORACLE/11.2.0/grid/crs/install/rootcrs.pl execution failed


Вот такая текущая ситуация.
...
Рейтинг: 0 / 0
13 сообщений из 13, страница 1 из 1
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Oracle 11g r2 RAC умер первый нод
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]