Гость
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Oracle 11g r2 RAC умер первый нод / 13 сообщений из 13, страница 1 из 1
14.08.2019, 17:35
    #39849392
PyroTechnic
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
Доброго времени суток, коллеги!

Есть RAC кластер на двух нодах. Версия Oracle 11g r2 11.2.0.4.0 PSU 190416. Случилось несчастье - первый нод внезапно умер. Как случилось не спрашивайте, меня привлекли в качестве консультанта после того как случилось и даже переставили ОС с чистого листа на умершем ноде. В целом все отработало нормально - второй нод доблестно взял на себя функции RAC и без ошибок тянет до сих пор. Передо мной встала на первый взгляд простая задача - вернуть нод в кластер. Все сделал по науке: http://www.dba-oracle.com/t_rac_remove_bad_node.htm . Ошибок не было.
Оставалось дело за малым: addNode.sh, но возникла ошибка при выполнении root.sh на добавляемом ноде:
Unable to retrieve local node number 1.
Поискал решение в инете и нашел: http://mylearnings-db.blogspot.com/2015/04/rootsh-failed-with-clscfg-error-in.html
Применил. Результат не изменился. Решил, что зря добавлял нод под старым именем, переименовал. Снова вычистил инфу и заново запустил addNode. Результат тот же.
И тут глубоко копая логи увидел, что при добавлении нового нода СSSD обращается за конфигом кластера к ноду номер 1, то есть умершему ноду. Не находит его и падает с вышеуказанной ошибкой. Хотя в кластере его вроде как быть не должно и любая команда (crsctl, olsnodes) показывает, что в кластере есть только второй нод.
Может кто-то сталкивался с подобным в практике, потому как на mysupport я подобного не нашел, а вешать им кейс уже вроде как поздно - 11g r2 теперь на extended support, которого у нас увы нет.
...
Рейтинг: 0 / 0
14.08.2019, 23:03
    #39849531
flexgen
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
PyroTechnic,

Посмотри вот это - How to Remove/Delete a Node From Grid Infrastructure Clusterware When the Node Has Failed (Doc ID 1262925.1)
...
Рейтинг: 0 / 0
15.08.2019, 10:08
    #39849602
PyroTechnic
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
flexgenPyroTechnic,

Посмотри вот это - How to Remove/Delete a Node From Grid Infrastructure Clusterware When the Node Has Failed (Doc ID 1262925.1)

По сути, этот документ повторяет Бурлесона (или наоборот, Бурлесон повторяет документ). Я выполнил все предписания, и olsnodes -n выдает только второй нод (node number 2). Но когда я добавляю новый нод, он пытается связаться с первым нодом (node number 1) и падает с ошибкой. Более того, в логах второго нода (ocssd.log) есть такие строки:
[ CSSD][2019374848]clssnmQueueClientEvent: Node[1] state = 0, birth = 0, unique = 0
[ CSSD][2019374848]clssnmQueueClientEvent: Node[2] state = 3, birth = 458950875, unique = 1563474051
[ CSSD][2019374848]clssnmQueueClientEvent: Node[3] state = 0, birth = 0, unique = 0
[ CSSD][2019374848]clssnmQueueClientEvent: Node[4] state = 1, birth = 0, unique = 1563480151
...
[ CSSD][2020951808]clssnmBldSendUpdate: stale member on disk, nodename ora-cl01 nodenum 1 DHB unique 0, syncSeqNo 458950879
Нод номер 3 - это отдельная песня. Он возникает после выполнения addNode.sh с именем кластера. Но он не проблема, потому как легко выпиливается по методу из 1262925.1.
Получается, что первый нод все равно остается где-то глубоко в конфиге, и кластер по-прежнему считает его "мастер"-нодом, раз без него невозможно добавить остальные ноды.
...
Рейтинг: 0 / 0
15.08.2019, 10:16
    #39849606
PyroTechnic
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
В предыдущем сообщении (предугадывая возможные вопросы) не совсем корректно выразился: нод номер 3 возникает сам по себе при выполнении addnode.sh и получает имя кластера. Конечно специально я такую глупость не делаю.
...
Рейтинг: 0 / 0
15.08.2019, 10:39
    #39849623
Тролин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
А кто у тебя сейчас мастер нода?
grep "OCR MASTER" $ORA_CRS_HOME/log/$HOST/crsd/crsd.l*

живая нода перезагружалась? Надо заставить живую ноду стать мастером.

что выдает olsnodes -n ?
...
Рейтинг: 0 / 0
15.08.2019, 10:44
    #39849627
PyroTechnic
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
Тролин,

[ OCRMAS][4213147392]th_master:12: I AM THE NEW OCR MASTER at incar 1. Node Number 2
По дате раньше, чем мои попытки добавить новый нод.
...
Рейтинг: 0 / 0
15.08.2019, 10:47
    #39849630
Тролин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
если выполнить бэкап
ocrconfig -manualbackup

какой будет ответ утилиты?
...
Рейтинг: 0 / 0
15.08.2019, 11:34
    #39849666
PyroTechnic
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
Тролин,

[root@ora-cl02 ~]# . oraenv
ORACLE_SID = [root] ? +ASM2
The Oracle base has been set to /ORACLE/app/oracle
[root@ora-cl02 ~]# ocrconfig -manualbackup

ora-cl02 2019/08/15 11:22:05 /ORACLE/11.2.0/grid/cdata/ora-cl-cluster/backup_20190815_112205.ocr


Сам файл тоже есть, если нужен.
...
Рейтинг: 0 / 0
15.08.2019, 14:00
    #39849777
Тролин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
на добавляемой ноде запустить утилиту clufy с параметрами


cluvfy comp peer -n rac2 -refnode rac1 -r 11gR2

cluvfy stage -pre nodeadd -n rac2 -fixup -verbose


Должна показать проблемы если есть
...
Рейтинг: 0 / 0
15.08.2019, 14:02
    #39849779
Тролин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
параматры свои подставь!
...
Рейтинг: 0 / 0
15.08.2019, 19:37
    #39850011
PyroTechnic
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
Тролинна добавляемой ноде запустить утилиту clufy с параметрами


cluvfy comp peer -n rac2 -refnode rac1 -r 11gR2

cluvfy stage -pre nodeadd -n rac2 -fixup -verbose


Должна показать проблемы если есть

на добавляемом ноде команда выдает ошибку, что для ее работы необходим сконфигурированный Grid.
на втором ноде команда никаких существенных ошибок не дает, кроме swap, multicast и pdksh.
...
Рейтинг: 0 / 0
16.08.2019, 08:45
    #39850141
Тролин
Участник
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
Похоже до запуска надо выставить правильный HOME GRID. Нужно добиться, чтобы утилита заработала.
...
Рейтинг: 0 / 0
02.09.2019, 16:25
    #39856368
PyroTechnic
Гость
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Oracle 11g r2 RAC умер первый нод
Вернулся из отпуска, под Кипрским солнышком было очень не комфортно заниматься восстановлением кластера :)
Перед самым отпуском я попробовал еще раз вогнать злополучный нод в кластер, но не вышло. В логах есть кое-что странное: хотя я загоняю нод командой
Код: plsql
1.
./addNode.sh "CLUSTER_NEW_NODES={ora-cl03}" "CLUSTER_NEW_VIRTUAL_HOSTNAMES={ora-clv03}"

, где ora-cl03 - имя нового нода, а ora-clv03 - его ВИП, который успешно разрешается в DNS, при выполнении root.sh в логах возникают вот такие строки (agent\crsd\oraagent_oracle\oraagent_oracle.log):
Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
...
[ora.asm][3484940032]{4:46862:2} [check] AsmProxyAgent::createAsmOcrKeys host: catoracle03 oracleSid_lc: +asm4 oracleSid_uc: +ASM4 tempHost1: catoracle03.+asm4
...
[ USRTHRD][3456186112]{4:46862:2} checkCrsStat 2 CLSCRS_STAT ret: 200
[ USRTHRD][3456186112]{4:46862:2} checkCrsStat 2 clscrs_res_get_op_status CLSCRS_STAT status 210 err_msg CRS-0210: Could not find resource 'ora.catoracle03.vip'.
[ USRTHRD][3456186112]{4:46862:2} CrsCmd::ClscrsCmdData::destroy
[ USRTHRD][3456186112]{4:46862:2} CrsCmd::destroy
[ USRTHRD][3456186112]{4:46862:2} Warning, could not get the node VIP address
[ USRTHRD][3456186112]{4:46862:2} AsmCommonAgent: Getting local vip failed. 


catoracle03 - это DNS имя кластера, которое разрешается в 3 адреса. Опять же, нод пытается запуститься под этим именем (в аттаче - лог log\catoracle03\alertcatoracle03.log с сервера ora-cl03).
Еще странный кусок лога ocssd.log:
Код: plsql
1.
2.
3.
4.
5.
6.
7.
...
[    CSSD][274667328]clssnmlgetslot:lease acquisition for node ora-cl03/slot 4 completed in 5020 msecs
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 1, ora-cl01, has a disk HB, but no network HB, DHB has rcfg 457458927, wrtcnt, 131311990, LATS 752764, lastSeqNo 0, uniqueness 1563471816, timestamp 1563472808/1029594
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 2, ora-cl02, has a disk HB, but no network HB, DHB has rcfg 461369005, wrtcnt, 101375741, LATS 752764, lastSeqNo 0, uniqueness 1565892180, timestamp 1565893636/1195464
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 3, catoracle03, has a disk HB, but no network HB, DHB has rcfg 457458913, wrtcnt, 467, LATS 752764, lastSeqNo 0, uniqueness 1563448955, timestamp 1563449421/235354534
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 4, ora-cl03, has a disk HB, but no network HB, DHB has rcfg 458950885, wrtcnt, 41248, LATS 752764, lastSeqNo 0, uniqueness 1565893619, timestamp 1565884699/4294744180
[   SKGFD][274667328]Lib :UFS:: closing handle 0x27db3d0 for disk :/dev/oracleasm/disks/ORADATA02: 


ora-cl01 - этот тот самый умерший первый нод. Почему я продолжаю натыкаться на его следы - не понимаю.
Ну и собственно говоря сама ошибка root.sh:
Код: plsql
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
[root@ora-cl03 grid]# ./root.sh
Performing root user operation for Oracle 11g

The following environment variables are set as:
    ORACLE_OWNER= oracle
    ORACLE_HOME=  /ORACLE/11.2.0/grid

Enter the full pathname of the local bin directory: [/usr/local/bin]: /usr/bin
The contents of "dbhome" have not changed. No need to overwrite.
The contents of "oraenv" have not changed. No need to overwrite.
The contents of "coraenv" have not changed. No need to overwrite.


Creating /etc/oratab file...
Entries will be added to the /etc/oratab file as needed by
Database Configuration Assistant when a database is created
Finished running generic part of root script.
Now product-specific root actions will be performed.
Using configuration parameter file: /ORACLE/11.2.0/grid/crs/install/crsconfig_params
User ignored Prerequisites during installation
Installing Trace File Analyzer
OLR initialization - successful
Adding Clusterware entries to oracle-ohasd.service
CRS-4402: The CSS daemon was started in exclusive mode but found an active CSS daemon on node ora-cl02, number 2, and is terminating
An active cluster was found during exclusive startup, restarting to join the cluster
Unable to retrieve local node number 1.
Internal Error Information:
  Category: 0
  Operation:
  Location:
  Other:
  Dep: 0
clscfg: Error in retrieving own node information
/ORACLE/11.2.0/grid/bin/clscfg -add failed
/ORACLE/11.2.0/grid/perl/bin/perl -I/ORACLE/11.2.0/grid/perl/lib -I/ORACLE/11.2.0/grid/crs/install /ORACLE/11.2.0/grid/crs/install/rootcrs.pl execution failed


Вот такая текущая ситуация.
...
Рейтинг: 0 / 0
Форумы / Oracle [игнор отключен] [закрыт для гостей] / Oracle 11g r2 RAC умер первый нод / 13 сообщений из 13, страница 1 из 1
Целевая тема:
Создать новую тему:
Автор:
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]