|
|
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Здравствуйте коллеги! Когда-то в нашей организации всё было хорошо, были и DBA и Unix-админы, но сейчас на почве ликвидации остался один. Разумеется, к администрированию БД меня никто никогда не подпускал, благо оставили пароли. Со мной случилась СУБД Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production Есть две БД, Db1 с ролью PRIMARY и Db2 с ролью PHYSICAL STANDBY на двух разных физических серверах. Обе работают в режиме Archivelog. Однажды, боевая база Db1 остановилась, забившись архивлогами. Путём активного гугления и применения RMAN удалось сбросить бэкапы архивлогов и самой базы на внешний носитель, почистить область данных FRA, после чего, база завелась и вроде бы даже работает. Однако, по мере углубления в принципы работы СУБД и резервного копирования баз стало понятно, что с момента остановки базы по причине забитой области FRA - прекратилось и резервное копирование на ленту. Начал копать. Сервер с базой данных работает в паре с HP Data Protector для Linux x64 версия A.06.20/370. Управляет DP ленточной хранилкой HP MSL2024 Tape Library. Изначально считал, что резервное копирование выполняется исходя из настроенных политик RMAN, однако - нет. Код: plsql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. Чуть позже, нашёл sh-скрипт следующего содержания, который выполнялся по расписанию CRON'ом. Вот его часть, которая отвечает за периодический полный бэкап базы: Код: plsql 1. 2. 3. 4. 5. 6. 7. Однако, данный скрипт вызывает ошибку следующего содержания: Код: plsql 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. Листаю море мануалов на англицком, согласно которым можно ходить в некий GUI Data Protector'а и там уже интересоваться происходящим. Нахожу ПК бывшего админа, на которой была установлена утилита HP DP Manager, где вижу свою ошибочную сессию в журнале. В представлении Reporting вижу событие, есть диагностическая информация: [138:742] Backup session "2017/08/09-2" of the backup specification "Oracle8 ibsdb",backup group "Default" has errors: 3. Description: Errors have been detected during the backup, copy, or consolidation session. Actions: Check error messages of the session by using: * Data Protector GUI (Internal Database context) * Session Errors report * omnidb -session <sessionID> -report Шлёт в другой раздел GUI, но прежде - нахожу справочник по устранению проблем с Data Protector (Trouble.txt), там написано: MESSAGE: [138:742] p session "p" of the backup specification "p",backup group "p" has errors: p. DESCRIPTION: Errors have been detected during backup. ACTION: Check error messages of the session by using: * Data Protector GUI (Internal Database context) * Backup Errors report * omnidb -session <sessionID> -report Т.е. ничего нового не находим. Теперь - иду в GUI Data Protection Manager, в представлении Internal Database в списке сессий нахожу свою и иду во вкладку с сообщениями: [Major] From: OB2BAR_SBT_CHANNEL@db1.kapitalbank.ru "IBS" Time: 09.08.2017 18:16:35 Received ABORT request from BSM (ERR: Error starting backup/restore (BMA cannot be started or similar).) Ради интереса пробую абстрагироваться от скрипта бэкапа, делаю sbttest test - результат в точности такой же. Собственно, вижу, что ошибка общая, вывод сообщений - аналогичный скрипту. Попытка отыскать расшифровку кода ошибки ERR(-17) особенным успехом не увенчалась, у меня ступор. Вопрос - куда копать, при том, что раньше оно нормально работало? Предварительно, была идея недостаточности свободного места на ленте, сделал RMAN> Report Obsolete; Увидел гору бэкапсетов за прошлый год, сделал RMAN> delete obsolete; Перезапустил сервер с Data Protector, попробовал снова сделать бэкап - опять ошибка, т.е. причина не в свободном месте. Хочу заметить, что бэкапсеты с ленты удалились прекрасно. И не менее прекрасно я вижу оставшиеся на ленте бэкапсеты, которые не попали под obsolete из-за политик хранения в RMAN. Люди добрые, пните пожалуйста в нужную сторону! Можно, конечно, пробовать бэкапить на сторонний диск, но при наличии ленточной хранилки - это как-то даже неприлично. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 15:35 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
1) Код: plsql 1. 2. 3. 4. 5. 6. hp под рукой нет 2) Что в syslog? 3) Что в логах DP? 4) какое состояние ленты: Код: plsql 1. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 15:53 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 10.08.2017, 15:58 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Denis Davydov Чуть позже, нашёл sh-скрипт следующего содержания, который выполнялся по расписанию CRON'ом. Вот его часть, которая отвечает за периодический полный бэкап базы: Код: plsql 1. 2. 3. 4. 5. 6. 7. Однако, данный скрипт вызывает ошибку Вопрос - куда копать, при том, что раньше оно нормально работало? Скрипт надо дополнить следующим: авторdelete noprompt obsolete recovery window of 31 days device type 'SBT_TAPE'; recovery window of 31 days - это для примера, вы укажите, сколько дней у вас на лентах бэкапы хранятся. Что говорит следующее: авторrman target / RMAN>list backup summary; RMAN> exit ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 15:01 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Denis DavydovRMAN-00571: =========================================================== RMAN-00569: =============== ERROR MESSAGE STACK FOLLOWS =============== RMAN-00571: =========================================================== RMAN-03009: failure of backup command on c1 channel at 08/09/2017 01:00:29 ORA-19506: failed to create sequential file, name="full_lrsbe5s3_1_1", parms="" ORA-27028: skgfqcre: sbtbackup returned error ORA-19511: Error received from media manager layer, error text: Vendor specific error: OB2_StartObjectBackup() failed ERR(-17) У меня такая ошибка выдавалась, когда были неправильно настроены параметры для ленты. добавила имя сервера к параметрам, все заработало http://www.sql.ru/forum/1024069/ne-mogu-nastroit-oraklovuu-specifikaciu-na-dataprotector-dlya-windows-klienta?hl=ob2appname ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 15:17 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Vadim Lejnin, я сразу хочу сказать, что с этими серверами раньше сталкиваться не приходилось, поэтому мне даже на очевидные вопросы отвечаю с трудом. 1) Что говорит: kill -l Если Вы про зомби, то ни на дата протекторе, ни на сервере с базой я их не нашёл. 2) Что в syslog? 3) Что в логах DP? В /var/opt/omni/log есть только inet.log, debug.log, IS _install.log Ни в одном из них не нашёл ничего, что касалось бы моих ошибочных сессий. С /var/log/messages - та же история. Однако, нашёл кое-что интересное: @dp:~> /opt/omni/bin/omnirpt -report backup_errors -timeframe 24 24 Backup Errors Cell Manager: dp.chtototam.ru Creation Date: 08/11/2017 11:12:48 PM Report Messages Other Than Normal [Common]: [Warning] From: BSM@dp.chtototam.ru "ibsdb" Time: 08/10/2017 11:57:46 PM [61:17102] Not enough licenses "Drive Extension for Windows / NetWare / Linux". Session is waiting for some of devices to get free. [Warning] From: BSM@dp.chtototam.ru "ibsdb" Time: 08/10/2017 11:57:46 PM [61:2013] Some of the backup devices are occupied. Session is waiting for all the devices to get free. [Critical] From: BSM@dp.chtototam.ru "ibsdb" Time: 08/11/2017 12:58:06 AM [61:2015] Timeout waiting for the devices to get free. The session will terminate. [Critical] From: BSM@dp.chtototam.ru "ibsdb" Time: 08/11/2017 12:58:37 AM None of the Disk Agents completed successfully. Session has failed. Report Messages Other Than Normal [db1.chtototam.ru]: [Major] From: OB2BAR_SBT_CHANNEL@db1.chtototam.ru "IBS" Time: 08/11/2017 01:00:35 AM Received ABORT request from BSM (ERR: Error starting backup/restore (BMA cannot be started or similar).) 4) какое состояние ленты: mt -f <tape device> status Вот тут я долго искал, а как вообще хранилка подключается к Data Protector? dp:~ # lsscsi -g [0:0:0:0] cd/dvd hp DVD D DS8D3SH HHE7 /dev/sr0 /dev/sg0 [3:0:0:0] tape HP Ultrium 5-SCSI I5AW /dev/st0 /dev/sg1 [3:0:0:1] mediumx HP MSL G3 Series 5.50 - /dev/sg2 Явно, SCSI - это наш вариант. dp:~ # cat /proc/scsi/scsi Attached devices: Host: scsi0 Channel: 00 Id: 00 Lun: 00 Vendor: hp Model: DVD D DS8D3SH Rev: HHE7 Type: CD-ROM ANSI SCSI revision: 05 Host: scsi3 Channel: 00 Id: 00 Lun: 00 Vendor: HP Model: Ultrium 5-SCSI Rev: I5AW Type: Sequential-Access ANSI SCSI revision: 06 Host: scsi3 Channel: 00 Id: 00 Lun: 01 Vendor: HP Model: MSL G3 Series Rev: 5.50 Type: Medium Changer ANSI SCSI revision: 05 dp:~ # dmesg |grep scsi scsi0 : ata_piix scsi1 : ata_piix sr0: scsi3-mmc drive: 24x/24x cd/rw xa/form2 cdda tray sr 0:0:0:0: Attached scsi CD-ROM sr0 sr 0:0:0:0: Attached scsi generic sg0 type 5 scsi2 : Brocade FC/FCOE Adapter, hwpath: 0000:09:00.0 driver: 3.0.0.0 scsi3 : Brocade FC/FCOE Adapter, hwpath: 0000:06:00.0 driver: 3.0.0.0 mptscsih: module not supported by Novell, setting U taint flag. 3:0:0:0: Attached scsi generic sg1 type 1 3:0:0:1: Attached scsi generic sg2 type 8 st 3:0:0:0: Attached scsi tape st0 Вот судя по всему, Sg - робот, St - лента. Файлы устройств в системе есть, но если опрашивать ленту, то mt -f даёт такой ответ: dp:~ # mt -f /dev/st0 status mt: /dev/st0: No medium found Мне кажется, нужно опрашивать ленту из CLI самого DataProtector, попробую раскопать в мануалах что-нибудь. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 23:30 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Aliona, я три раза перечитал тему форума. Объясните пожалуйста подробнее для тех, кто в танке) Есть сервер с базой данных, он - клиент. Есть сервер с DataProtector, к нему подключена хранилка. Правильно ли я понимаю, что нужно добавить переменную окружения OB2APPNAME для пользователя oracle на сервер с cell manager и media agent (который dataprotector)? Если это нужно сделать на сервере с базой данных - то я вроде бы скриптом передаю parms 'ENV=(OB2BARTYPE=Oracle8,OB2APPNAME=IBS,OB2BARLIST=ibsdb)'; В любом случае, спасибо) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 11.08.2017, 23:37 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
автор Однажды, боевая база Db1 остановилась, забившись архивлогами фсе, харе, на этом можно остановиться ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 12.08.2017, 01:28 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
кузька123, а можно, пожалуйста, поподробнее, что Вы имеете ввиду? Сейчас место во FRA имеется, база работает. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 10:42 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Судя по логам data protector'а привод занят. Ленту из привода нужно принудительно переместить в слот (через панель оператора или веб-интерфейс). Или есть незавершенная сессия резервного копирования, ее можно прервать в GUI data protector'a через Monitor. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 12:36 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Denis Davydovкузька123, а можно, пожалуйста, поподробнее, что Вы имеете ввиду? Сейчас место во FRA имеется, база работает. А бэкапирование на ленту работает? 1. Если работает, то тогда в чём проблема? 2. А если не работает, то FRA скоро заполнится архивлогами и БД повиснет. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 13:47 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Denis Davydov, Вы не ответили на вопрос: авторЧто говорит следующее: автор rman target / RMAN>list backup summary; RMAN> exit ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 14:56 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Denis DavydovAliona, я три раза перечитал тему форума. Объясните пожалуйста подробнее для тех, кто в танке) На линуксе в профиле оракл я задавала параметры для ленты: авторexport OB2APPNAME=eas export OB2BARHOSTNAME=vckpeas1.vckp.ru export OB2BARTYPE=Oracle8 export OB2BARLIST=EAS_backup автора в самом скрипте никакие параметры не передавала. crosscheck backup; crosscheck archivelog all; crosscheck copy of controlfile; crosscheck copy; DELETE noprompt EXPIRED BACKUP; DELETE noprompt EXPIRED archivelog all; DELETE noprompt EXPIRED copy; DELETE noprompt OBSOLETE device type disk; backup check logical validate database; backup device type disk tag 'FULL_BKUP' database; backup device type disk tag 'ARCH_BKUP' archivelog all not backed up; run { allocate channel oem_sbt_backup1 type 'SBT_TAPE' format '%U'; backup tag 'FRA_BKUP_SBT' recovery area; delete noprompt obsolete recovery window of 31 days device type 'SBT_TAPE'; backup tag 'ARCH_BKUP_SBT' archivelog all not backed up; } allocate channel for maintenance type disk; delete noprompt obsolete device type disk; А в приведённой выше ссылке у меня были проблемы на Виндах, там пришлось параметры передавать в самом скрипте. 4 параметра. Что параметры обозначают, писать не буду, чтобы не соврать, т.к. с Data Protecto'ом пятилетку не работаю. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 14.08.2017, 15:17 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
_author_1, зависших сессий я в списке не обнаружил, а вот насчёт ожидания устройства, кажется, Вы правы, т.к. в GUI в контексте Internal Database догадался посмотреть параметры удачно завершённых сессий. Во вкладке media явно указано устройство копирования, идентификатор ленты и пул. Этим вполне можно объяснить ошибки медиа агента в моих неработающих сессиях. К сожалению, никак не могу найти мануал по работе с GUI, концептуально всё понятно, а простые на первый взгляд операции по выбору устройства для копирования не так уж очевидны. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2017, 15:19 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
AlionaЧто говорит следующее: RMAN>list backup summary; Пишет список доступных бэкапсетов на устройстве по умолчанию, которое, как мы помним, SBT_TAPE. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2017, 15:21 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
AlionaА бэкапирование на ленту работает? 1. Если работает, то тогда в чём проблема? 2. А если не работает, то FRA скоро заполнится архивлогами и БД повиснет. 1.Бэкапирование на ленту не работает, получаю ошибку из сообщений выше. 2.Погодите, давайте разбираться. Какая связь между FRA и лентой? Насколько я понял за недолгое время распутывания моей системы, +FRA01 - это некое дисковое пространство, которое рулится Oracle ASM и куда пишутся архивлоги базы данных, так? Ну а лента - некое стороннее устройство, на которое принудительно архивируются эти самые логи. Судя по моему же скрипту, заархивированные логи идут на ленту, а те, с которых сняты резервные копии - удаляются из FRA, чтобы не забивать место, т.к. время хранения в политиках не задано. Концептуально правильно мыслю? Просто если FRA и лента это физически одно и то же устройство - тогда я начну сомневаться в необходимости такого бэкапирования. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 15.08.2017, 15:30 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Denis DavydovAlionaЧто говорит следующее: RMAN>list backup summary; Пишет список доступных бэкапсетов на устройстве по умолчанию, которое, как мы помним, SBT_TAPE. Очень информативно. Разбирайтесь сами, я умываю руки. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.08.2017, 14:03 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Aliona, спасибо Вам большое за содействие! Для собственного понимания, хотел бы увидеть ответ на вопрос: автор AlionaКакая связь между FRA и лентой? если можно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 16.08.2017, 14:35 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
FRA всегда на диске ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.08.2017, 07:48 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
На FRA пишутся архивлоги, которые потом бэкапятся на ленту и удаляются они, соответственно, при выполнении этого самого бэкапа. Если он не проходит то логи не удаляются -> FRA забивается -> база останавливается, что и произошло. Вопрос был предоставить результат команды "RMAN>list backup summary;" который покажет, о каких бэкапах в базе хранится информация, на основе этого ответа задавший вопрос предложил бы следующий шаг. После выполнения команды "RMAN> delete obsolete;" на каком основании решено, что сеты прекрасно удалились с ленты? Возможно запись о них была удалена только из базы, а не ленте остались. Была ли выполнена успешная попытка записи на ленту чего-нибудь стороннего, не средствами RMAN? ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.08.2017, 08:47 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
У человека БД не бэкапится неделю, в любой момент БД опять повиснет, а он "теоретизирует" :) ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 17.08.2017, 13:52 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Denis DavydovКогда-то в нашей организации всё было хорошо, были и DBA и Unix-админы, но сейчас на почве ликвидации остался один. Разумеется, к администрированию БД меня никто никогда не подпускал... Ну а что, по хорошему, указанные действия были обоснованны, так пусть теперь те же люди обосновывают, почему данные в этой базе не являются важными и их полное восстановление не требуется. Раз сказали, что один человек как сможет так и справится, вот он как может так и справляется. Что он теперь треснуть должен что ли ). ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 18.08.2017, 12:15 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Большое спасибо всем за оказанную поддержку! Проблема решена. Как я понял, каким-то образом заклинило драйв самой хранилки. Посредством HP Data Protector Manager убедился в том, что зависших сессий бэкапирования действительно нет, принудительно переместил кассету в слот, перезапустил устройство - и бэкапы пошли. Т.е. формально причина была в том, что устройство было смонтировано в систему, а носителя у системы не было. Что послужило причиной такого поведения, правда, неизвестно, так что буду мониторить процесс резервного копирования и делать выводы. Процедуры монтирования выполнял через веб-интерфейс хранилки (HP MSL2024), согласно инструкции HPE StoreEver MSL2024 Tape Libraries User and Service Guide Процедуры просмотра сессий и вообще работы с GUI Data Protector очень подробно описаны в инструкции Data Protector Operations Guide При отсутствии инструкций из коробки и после переезда сайта HP оказалось проблематично найти именно то, что нужно. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2017, 16:00 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
Taciturn12, большое спасибо за уточнение! Чёрный ящик постепенно превращается в управляемую систему и это очень круто) По поводу важности данных - тут всё дело в том, что простои информационных систем для неработающего бизнеса не критичны. Одно слово, ликвидация. Оттуда и сокращение штата, и вот такие страдания из-за незнания базовых принципов работы конкретно мной. ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2017, 16:04 |
|
||
|
Oracle+HP Data Protector - ошибка при резервном копировании
|
|||
|---|---|---|---|
|
#18+
AlionaУ человека БД не бэкапится неделю, в любой момент БД опять повиснет, а он "теоретизирует" :) Ничего, на этот случай я предварительно сделал копии на смонтированный жёсткий диск. По поводу "повиснет" - смотрю состояние FRA периодически. К тому же, работоспособность системы не так уж и критична сейчас, потому и теоретизирую. Согласитесь, лучше ведь понять, как работает система, чем однократно решить проблему и после ждать очередного часа х. Вообще, не стал публиковать список, по причине большого объёма текста, но вот только сейчас понял, что можно было просто убрать под кат. Спасибо! ... |
|||
|
:
Нравится:
Не нравится:
|
|||
| 21.08.2017, 16:11 |
|
||
|
|

start [/forum/topic.php?fid=52&msg=39503502&tid=1885390]: |
0ms |
get settings: |
8ms |
get forum list: |
12ms |
check forum access: |
3ms |
check topic access: |
3ms |
track hit: |
158ms |
get topic data: |
10ms |
get forum data: |
2ms |
get page messages: |
58ms |
get tp. blocked users: |
1ms |
| others: | 208ms |
| total: | 463ms |

| 0 / 0 |
