Oracle 11g r2 RAC умер первый нод / Oracle

ReSQL.ru

Мобильная версия Контакт Правила FAQ Помощь

Гость

Войти | Регистрация | Профиль | Очистить

Новые сообщения | Избранное

Форумы | Пользователи | Статистика | Мод. лог | Поиск

Доб. в избранное | Игнор. тему | Прикреп. тему | Пометить прочит. / непрочит. | Фильтр

Форумы / Oracle [игнор отключен] [закрыт для гостей] / Oracle 11g r2 RAC умер первый нод

13 сообщений из 13, страница 1 из 1

Oracle 11g r2 RAC умер первый нод

#39849392

PyroTechnic

Гость

Доброго времени суток, коллеги!

Есть RAC кластер на двух нодах. Версия Oracle 11g r2 11.2.0.4.0 PSU 190416. Случилось несчастье - первый нод внезапно умер. Как случилось не спрашивайте, меня привлекли в качестве консультанта после того как случилось и даже переставили ОС с чистого листа на умершем ноде. В целом все отработало нормально - второй нод доблестно взял на себя функции RAC и без ошибок тянет до сих пор. Передо мной встала на первый взгляд простая задача - вернуть нод в кластер. Все сделал по науке: http://www.dba-oracle.com/t_rac_remove_bad_node.htm . Ошибок не было.
Оставалось дело за малым: addNode.sh, но возникла ошибка при выполнении root.sh на добавляемом ноде:
Unable to retrieve local node number 1.
Поискал решение в инете и нашел: http://mylearnings-db.blogspot.com/2015/04/rootsh-failed-with-clscfg-error-in.html
Применил. Результат не изменился. Решил, что зря добавлял нод под старым именем, переименовал. Снова вычистил инфу и заново запустил addNode. Результат тот же.
И тут глубоко копая логи увидел, что при добавлении нового нода СSSD обращается за конфигом кластера к ноду номер 1, то есть умершему ноду. Не находит его и падает с вышеуказанной ошибкой. Хотя в кластере его вроде как быть не должно и любая команда (crsctl, olsnodes) показывает, что в кластере есть только второй нод.
Может кто-то сталкивался с подобным в практике, потому как на mysupport я подобного не нашел, а вешать им кейс уже вроде как поздно - 11g r2 теперь на extended support, которого у нас увы нет.

...

Рейтинг:

0 / 0

14.08.2019, 17:35

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849531

flexgen

Участник

Откуда: Город на песке

Сообщения: 936

Рейтинг: 0 / 0

PyroTechnic,

Посмотри вот это - How to Remove/Delete a Node From Grid Infrastructure Clusterware When the Node Has Failed (Doc ID 1262925.1)

...

Рейтинг:

0 / 0

14.08.2019, 23:03

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849602

PyroTechnic

Гость

flexgenPyroTechnic,

Посмотри вот это - How to Remove/Delete a Node From Grid Infrastructure Clusterware When the Node Has Failed (Doc ID 1262925.1)

По сути, этот документ повторяет Бурлесона (или наоборот, Бурлесон повторяет документ). Я выполнил все предписания, и olsnodes -n выдает только второй нод (node number 2). Но когда я добавляю новый нод, он пытается связаться с первым нодом (node number 1) и падает с ошибкой. Более того, в логах второго нода (ocssd.log) есть такие строки:
[ CSSD][2019374848]clssnmQueueClientEvent: Node[1] state = 0, birth = 0, unique = 0
[ CSSD][2019374848]clssnmQueueClientEvent: Node[2] state = 3, birth = 458950875, unique = 1563474051
[ CSSD][2019374848]clssnmQueueClientEvent: Node[3] state = 0, birth = 0, unique = 0
[ CSSD][2019374848]clssnmQueueClientEvent: Node[4] state = 1, birth = 0, unique = 1563480151
...
[ CSSD][2020951808]clssnmBldSendUpdate: stale member on disk, nodename ora-cl01 nodenum 1 DHB unique 0, syncSeqNo 458950879
Нод номер 3 - это отдельная песня. Он возникает после выполнения addNode.sh с именем кластера. Но он не проблема, потому как легко выпиливается по методу из 1262925.1.
Получается, что первый нод все равно остается где-то глубоко в конфиге, и кластер по-прежнему считает его "мастер"-нодом, раз без него невозможно добавить остальные ноды.

...

Рейтинг:

0 / 0

15.08.2019, 10:08

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849606

PyroTechnic

Гость

В предыдущем сообщении (предугадывая возможные вопросы) не совсем корректно выразился: нод номер 3 возникает сам по себе при выполнении addnode.sh и получает имя кластера. Конечно специально я такую глупость не делаю.

...

Рейтинг:

0 / 0

15.08.2019, 10:16

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849623

Тролин

Участник

Откуда: БСП

Сообщения: 513

Рейтинг: 0 / 0

А кто у тебя сейчас мастер нода?
grep "OCR MASTER" $ORA_CRS_HOME/log/$HOST/crsd/crsd.l*

живая нода перезагружалась? Надо заставить живую ноду стать мастером.

что выдает olsnodes -n ?

...

Рейтинг:

0 / 0

15.08.2019, 10:39

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849627

PyroTechnic

Гость

Тролин,

[ OCRMAS][4213147392]th_master:12: I AM THE NEW OCR MASTER at incar 1. Node Number 2
По дате раньше, чем мои попытки добавить новый нод.

...

Рейтинг:

0 / 0

15.08.2019, 10:44

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849630

Тролин

Участник

Откуда: БСП

Сообщения: 513

Рейтинг: 0 / 0

если выполнить бэкап
ocrconfig -manualbackup

какой будет ответ утилиты?

...

Рейтинг:

0 / 0

15.08.2019, 10:47

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849666

PyroTechnic

Гость

Тролин,

[root@ora-cl02 ~]# . oraenv
ORACLE_SID = [root] ? +ASM2
The Oracle base has been set to /ORACLE/app/oracle
[root@ora-cl02 ~]# ocrconfig -manualbackup

ora-cl02 2019/08/15 11:22:05 /ORACLE/11.2.0/grid/cdata/ora-cl-cluster/backup_20190815_112205.ocr

Сам файл тоже есть, если нужен.

...

Рейтинг:

0 / 0

15.08.2019, 11:34

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849777

Тролин

Участник

Откуда: БСП

Сообщения: 513

Рейтинг: 0 / 0

на добавляемой ноде запустить утилиту clufy с параметрами

cluvfy comp peer -n rac2 -refnode rac1 -r 11gR2

cluvfy stage -pre nodeadd -n rac2 -fixup -verbose

Должна показать проблемы если есть

...

Рейтинг:

0 / 0

15.08.2019, 14:00

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39849779

Тролин

Участник

Откуда: БСП

Сообщения: 513

Рейтинг: 0 / 0

параматры свои подставь!

...

Рейтинг:

0 / 0

15.08.2019, 14:02

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39850011

PyroTechnic

Гость

Тролинна добавляемой ноде запустить утилиту clufy с параметрами

cluvfy comp peer -n rac2 -refnode rac1 -r 11gR2

cluvfy stage -pre nodeadd -n rac2 -fixup -verbose

Должна показать проблемы если есть

на добавляемом ноде команда выдает ошибку, что для ее работы необходим сконфигурированный Grid.
на втором ноде команда никаких существенных ошибок не дает, кроме swap, multicast и pdksh.

...

Рейтинг:

0 / 0

15.08.2019, 19:37

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39850141

Тролин

Участник

Откуда: БСП

Сообщения: 513

Рейтинг: 0 / 0

Похоже до запуска надо выставить правильный HOME GRID. Нужно добиться, чтобы утилита заработала.

...

Рейтинг:

0 / 0

16.08.2019, 08:45

| Ответить | Цитировать | Написать

Oracle 11g r2 RAC умер первый нод

#39856368

PyroTechnic

Гость

Вернулся из отпуска, под Кипрским солнышком было очень не комфортно заниматься восстановлением кластера :)
Перед самым отпуском я попробовал еще раз вогнать злополучный нод в кластер, но не вышло. В логах есть кое-что странное: хотя я загоняю нод командой

Код: plsql

./addNode.sh "CLUSTER_NEW_NODES={ora-cl03}" "CLUSTER_NEW_VIRTUAL_HOSTNAMES={ora-clv03}"

, где ora-cl03 - имя нового нода, а ora-clv03 - его ВИП, который успешно разрешается в DNS, при выполнении root.sh в логах возникают вот такие строки (agent\crsd\oraagent_oracle\oraagent_oracle.log):

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.

...
[ora.asm][3484940032]{4:46862:2} [check] AsmProxyAgent::createAsmOcrKeys host: catoracle03 oracleSid_lc: +asm4 oracleSid_uc: +ASM4 tempHost1: catoracle03.+asm4
...
[ USRTHRD][3456186112]{4:46862:2} checkCrsStat 2 CLSCRS_STAT ret: 200
[ USRTHRD][3456186112]{4:46862:2} checkCrsStat 2 clscrs_res_get_op_status CLSCRS_STAT status 210 err_msg CRS-0210: Could not find resource 'ora.catoracle03.vip'.
[ USRTHRD][3456186112]{4:46862:2} CrsCmd::ClscrsCmdData::destroy
[ USRTHRD][3456186112]{4:46862:2} CrsCmd::destroy
[ USRTHRD][3456186112]{4:46862:2} Warning, could not get the node VIP address
[ USRTHRD][3456186112]{4:46862:2} AsmCommonAgent: Getting local vip failed.

catoracle03 - это DNS имя кластера, которое разрешается в 3 адреса. Опять же, нод пытается запуститься под этим именем (в аттаче - лог log\catoracle03\alertcatoracle03.log с сервера ora-cl03).
Еще странный кусок лога ocssd.log:

Код: plsql

1.
2.
3.
4.
5.
6.
7.

...
[    CSSD][274667328]clssnmlgetslot:lease acquisition for node ora-cl03/slot 4 completed in 5020 msecs
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 1, ora-cl01, has a disk HB, but no network HB, DHB has rcfg 457458927, wrtcnt, 131311990, LATS 752764, lastSeqNo 0, uniqueness 1563471816, timestamp 1563472808/1029594
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 2, ora-cl02, has a disk HB, but no network HB, DHB has rcfg 461369005, wrtcnt, 101375741, LATS 752764, lastSeqNo 0, uniqueness 1565892180, timestamp 1565893636/1195464
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 3, catoracle03, has a disk HB, but no network HB, DHB has rcfg 457458913, wrtcnt, 467, LATS 752764, lastSeqNo 0, uniqueness 1563448955, timestamp 1563449421/235354534
[    CSSD][274667328]clssnmvDHBValidateNcopy: node 4, ora-cl03, has a disk HB, but no network HB, DHB has rcfg 458950885, wrtcnt, 41248, LATS 752764, lastSeqNo 0, uniqueness 1565893619, timestamp 1565884699/4294744180
[   SKGFD][274667328]Lib :UFS:: closing handle 0x27db3d0 for disk :/dev/oracleasm/disks/ORADATA02:

ora-cl01 - этот тот самый умерший первый нод. Почему я продолжаю натыкаться на его следы - не понимаю.
Ну и собственно говоря сама ошибка root.sh:

Код: plsql

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.

[root@ora-cl03 grid]# ./root.sh
Performing root user operation for Oracle 11g

The following environment variables are set as:
    ORACLE_OWNER= oracle
    ORACLE_HOME=  /ORACLE/11.2.0/grid

Enter the full pathname of the local bin directory: [/usr/local/bin]: /usr/bin
The contents of "dbhome" have not changed. No need to overwrite.
The contents of "oraenv" have not changed. No need to overwrite.
The contents of "coraenv" have not changed. No need to overwrite.


Creating /etc/oratab file...
Entries will be added to the /etc/oratab file as needed by
Database Configuration Assistant when a database is created
Finished running generic part of root script.
Now product-specific root actions will be performed.
Using configuration parameter file: /ORACLE/11.2.0/grid/crs/install/crsconfig_params
User ignored Prerequisites during installation
Installing Trace File Analyzer
OLR initialization - successful
Adding Clusterware entries to oracle-ohasd.service
CRS-4402: The CSS daemon was started in exclusive mode but found an active CSS daemon on node ora-cl02, number 2, and is terminating
An active cluster was found during exclusive startup, restarting to join the cluster
Unable to retrieve local node number 1.
Internal Error Information:
  Category: 0
  Operation:
  Location:
  Other:
  Dep: 0
clscfg: Error in retrieving own node information
/ORACLE/11.2.0/grid/bin/clscfg -add failed
/ORACLE/11.2.0/grid/perl/bin/perl -I/ORACLE/11.2.0/grid/perl/lib -I/ORACLE/11.2.0/grid/crs/install /ORACLE/11.2.0/grid/crs/install/rootcrs.pl execution failed

Вот такая текущая ситуация.

...

Рейтинг:

0 / 0

02.09.2019, 16:25

| Ответить | Цитировать | Написать

13 сообщений из 13, страница 1 из 1

Форумы / Oracle [игнор отключен] [закрыт для гостей] / Oracle 11g r2 RAC умер первый нод

Цитировать

Написать

Автор*:

Ввести пароль для входа

Тема*:

Сообщение

Данное сообщение тематическое

Сообщение содержит картинки или видео 18+

Автор:

ВНИМАНИЕ! На данном подфоруме действуют строгие правила. Удостоверьтесь, что ваше сообщение соответствует им!

Форум или тема закрыты для гостей. Необходима авторизация!

Загрузить последнюю сохраненную версию

Вложение:

Вставить как галерею

Максимальный размер вложений: 4,0 МБ, аудио/видео: 8,0 МБ. Картинки большего размера ужимаются, если возможно.

Введите код, изображенный на картинке. Если код нечитаемый, кликните картинку, чтобы загрузить другой вариант.

Отправляя сообщение, я выражаю свое согласие с правилами форума и принимаю пользовательское соглашение.

Читали тему (0):

Читали форум (0):

Пользователи онлайн (0):

start [/forum/topic.php?fid=52&msg=39849666&tid=1882134]:	0ms
get settings:	10ms
get forum list:	15ms
check forum access:	4ms
check topic access:	4ms
track hit:	29ms
get topic data:	10ms
get forum data:	3ms
get page messages:	53ms
get tp. blocked users:	1ms
others:	276ms

total:	405ms