powered by simpleCommunicator - 2.0.48     © 2025 Programmizd 02
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Disaster Recovery Plan и т.д.
21 сообщений из 21, страница 1 из 1
Disaster Recovery Plan и т.д.
    #39962280
xander1983
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Добрый день,

На работе понадобилось разработать Disaster Recovery Plan и всю сопутствующую документацию. Но не знаю с чего начать, потому как не DBA. То есть я чисто практически понимаю что надо, и более того оно давно внедрено, но вот как это оформить в документацию не понимаю. Поиск особых результатов не дал, только в общих чертах.

Если коротко, то я уже давно внедрил PostgreSQL и горячую репликацию с помощью Barman, каждую ночь делается полный backup, далее в течение дня архивируются WAL, на след. день процесс повторяется.

Но теперь надо все это описать в таком виде к которому более менее привыкли люди которые возможно это будут читать. Ну и заодно мне для общего развития, потому что было бы наивно предположить что я чего то не упустил.

Подскажите, пожалуйста, что почитать на эту тему. Интересует общая картина для реляционных БД, а не под одну конкретную имплементацию.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962569
SERG1257
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
xander1983 Если коротко, то я уже давно внедрил PostgreSQL и горячую репликацию с помощью Barman, каждую ночь делается полный backup, далее в течение дня архивируются WAL, на след. день процесс повторяется.Вот этого не надо. Надо изложить последовательность действий в случае если в главном датацентре пожар, наводнение, землятрясение и т.д.
Как ты делал бакап неинтересно, интересно как будешь восстанавливаться.
Сколько времени будет потеряно (придется вводить снова) RPO
Сколько времени будешь восстанавливать RTO
https://www.enterprisestorageforum.com/storage-management/rpo-and-rto-understanding-the-differences.html
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962590
Фотография vmag
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
xander1983
Поиск особых результатов не дал, только в общих чертах.


Поиск где? Мне вот эта ссылка понравилась, а вообще поиск даже в яндексе по Disaster Recovery Plan дает много материала или вы думаете, что кому-то это нужно больше чем вам?
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962592
Фотография Relic Hunter
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SERG1257
Надо изложить последовательность действий в случае если в главном датацентре пожар, наводнение, землятрясение и т.д.
Сейчас в админконсоли тучи ставишь галочку HA (High Availability) и всё автоматом переезжает в уцелевший ДЦ.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962593
xander1983
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
SERG1257
Вот этого не надо. Надо изложить последовательность действий в случае если в главном датацентре пожар, наводнение, землятрясение и т.д.
Как ты делал бакап неинтересно, интересно как будешь восстанавливаться.


Это понятно, но в моем случае я хочу чтобы весь процесс был повторяемым. Для меня или для того кто придет мне на смену.

SERG1257
Сколько времени будет потеряно (придется вводить снова) RPO
Сколько времени будешь восстанавливать RTO
https://www.enterprisestorageforum.com/storage-management/rpo-and-rto-understanding-the-differences.html


Это понятно, спасибо за ссылку, буду читать.

Еще хотел поинтересоваться у знающих людей, а вот например если тебе хакеры сломали сервер, получили доступ к ББДД и внесли изменения в данные, это считается как disaster или нет? А если это было обнаружено через, допустим, 24 часа после внесения изменений?
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962594
xander1983
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
Relic Hunter
Сейчас в админконсоли тучи ставишь галочку HA (High Availability) и всё автоматом переезжает в уцелевший ДЦ.


Это при условии если используется какой нибудь AWS, но у нас это запрещено.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962597
Фотография Relic Hunter
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
xander1983
Еще хотел поинтересоваться у знающих людей, а вот например если тебе хакеры сломали сервер, получили доступ к ББДД и внесли изменения в данные, это считается как disaster или нет? А если это было обнаружено через, допустим, 24 часа после внесения изменений?



авторDefinition of Disaster

A “disaster” is an unplanned interruption of normal business operations as a result of the failure of the IT infrastructure components that are used to support the business. Hardware, software, and data could all be parts of the service that has been disrupted.

Types of disasters:

• Natural disaster such as floods or major storm
• Physical damage or interruption of business building access
1. Service interruptions (network infrastructure, power)
2. Urban fire
3. Leakage of Hazardous materials (Gas, Water)
4. Building collapse
• Software/Hardware catastrophic failure
• Data compromise or corruption
1. Ransomware, malware
2. Disgruntled employee
3. Hackers, network penetrations
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962605
SERG1257
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
xander1983 Это понятно, но в моем случае я хочу чтобы весь процесс был повторяемым. Для меня или для того кто придет мне на смену. Вот и пропиши инструкцию: куда смотреть и что делать. В этом и суть вашего плана.
Потом надо будет провести "учебную тревогу"

xander1983 Еще хотел поинтересоваться у знающих людей, а вот например если тебе хакеры сломали сервер, получили доступ к ББДД и внесли изменения в данные, это считается как disaster или нет? А если это было обнаружено через, допустим, 24 часа после внесения изменений? Самое страшное это не хакеры, а вполне себе нормальные сотрудники, которые хотели как лучше, а получилось как всегда.
И ответ на этот вопрос (не кто виноват, а что делать) тоже будет в вашем документе: что будете предпринимать.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962616
xander1983
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
авторDefinition of Disaster

A “disaster” is an unplanned interruption of normal business operations as a result of the failure of the IT infrastructure components that are used to support the business. Hardware, software, and data could all be parts of the service that has been disrupted.

Types of disasters:

• Natural disaster such as floods or major storm
• Physical damage or interruption of business building access
1. Service interruptions (network infrastructure, power)
2. Urban fire
3. Leakage of Hazardous materials (Gas, Water)
4. Building collapse
• Software/Hardware catastrophic failure
• Data compromise or corruption
1. Ransomware, malware
2. Disgruntled employee
3. Hackers, network penetrations


Спасибо, очевидно что данная ситуация попадает под пункт 3 (Hackers, network penetrations).
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962618
xander1983
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
SERG1257
Самое страшное это не хакеры, а вполне себе нормальные сотрудники, которые хотели как лучше, а получилось как всегда.


Да, согласен, пару раз очень даже был очевидцем когда DROP DATABASE делался на проде, при этом чувак "как всегда" думал что подключен к локалхосту.

Но тут скорее вопрос дальше идет, по незнанию. Но вот допустим архивирую я WAL, 1го числа хакеры изменили данные. 2го числа система работала в штатном режиме и апдейтила данные. А 3го числа кто то понял то что случилось 1го числа.

Полагаю что в данном случае откатить все на 1ое число это не вариант, потому что теряется вся инфа загруженная 2го числа. Вручную все это исправлять -- возможно тоже не вариант из за объема. И как быть в этой ситуации лично для меня не очевидно. Я поэтому и спрашиваю скорее о каком то письменном руководстве потому что вот таких неочевидных для меня моментов скорее всего будет больше одного.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962622
SERG1257
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
xander1983 Полагаю что в данном случае откатить все на 1ое число это не вариант, потому что теряется вся инфа загруженная 2го числа. Вручную все это исправлять -- возможно тоже не вариант из за объема. И как быть в этой ситуации лично для меня не очевидноДва момента:
во-первых это никак не DR (это хуже) и поэтому здесь это оффтопик.
во-вторых это не вам решать вариант или нет. Зовете пользователей, начальство, выкладываете варианты/риски/оценки по результатам совещания принимается решение. Вот его (решение) и выполняете.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962772
Фотография softwarer
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
xander1983
И как быть в этой ситуации лично для меня не очевидно.

И инструкцию не напишешь.

У меня была одна такая ситуация, я её называю "ночь с четверга на воскресенье". Когда я сидел и пилил скрипты, которые сравнивали данные на всех серверах, вычисляли ситуацию, которая должна была бы быть, если бы "изменения второго числа" (а также последующих, пока пилил скрипты) легли на правильное состояние базы, и формировали другие скрипты, которые бы это правильное состояние восстанавливали. В середине воскресенья я позвонил начальнику и сказал - скрипты готовы, хочешь приехать на них посмотреть? Общий объём порядка двухсот мегабайт. Он спросил, что будет, если их запустить. Я сказал - ну либо всё восстановят, либо окончательно всё доломают. Он пожевал по телефону губы и сказал: запускай.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962880
xander1983
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
[quot SERG1257#22140226]xander1983 Два момента:
во-первых это никак не DR (это хуже) и поэтому здесь это оффтопик.
во-вторых это не вам решать вариант или нет. Зовете пользователей, начальство, выкладываете варианты/риски/оценки по результатам совещания принимается решение. Вот его (решение) и выполняете.

Ну то есть нету никаких "best practices" на этот счет? Уверен же что я не первый который может столкнуться с такой ситуацией.

Насчет того что решать не мне, это все понятно, но хочется же быть готовым к такой ситуации. С таким подходом можно просто бэкап делать раз в месяц, а когда все сломается созвать совещание и сказать: "ну вот есть два варианта, коллеги....".
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39962884
xander1983
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
softwarer
И инструкцию не напишешь.

У меня была одна такая ситуация, я её называю "ночь с четверга на воскресенье". Когда я сидел и пилил скрипты, которые сравнивали данные на всех серверах, вычисляли ситуацию, которая должна была бы быть, если бы "изменения второго числа" (а также последующих, пока пилил скрипты) легли на правильное состояние базы, и формировали другие скрипты, которые бы это правильное состояние восстанавливали. В середине воскресенья я позвонил начальнику и сказал - скрипты готовы, хочешь приехать на них посмотреть? Общий объём порядка двухсот мегабайт. Он спросил, что будет, если их запустить. Я сказал - ну либо всё восстановят, либо окончательно всё доломают. Он пожевал по телефону губы и сказал: запускай.


Ну вот да, то есть это импровизация, и на 100% избежать ее, скорее всего, не получится. Но ведь можно свести к минимуму. Например, идея с потолка, если отслеживать все подключения и связывать все транзакции с "плохим" коннектом, то, по меньшей мере, можно откатить хотя бы плохие транзакции, а дальше опять же по ситуации.

Но я именно поэтому и не прошу конкретных решений, а интересуюсь литературой которая освещает эти вопросы.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39963001
SERG1257
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
xander1983 Ну то есть нету никаких "best practices" на этот счет? Уверен же что я не первый который может столкнуться с такой ситуацией.
Конечно нет. Тут ситуация выбора из двух зол, то есть потери будут в любом случае.

xander1983 а когда все сломаетсякогда все сломается вариант один - восстанавливать. И даже в этом случае надо уведомить начальство, получить формальное одобрение.

xander1983 но хочется же быть готовым к такой ситуации.изучайте свою базу и приложение (что откуда берется и куда затем деется). Тогда появляется вариант заскриптовать изменения сделаные пользователями второго числа после сбоя (давайте забудем про таинственных хакеров) при условии, что эти изменения не зависят от активности предыдущего дня.
Учитесь генерить скрипты. Уверен, что эти многомегабайтные скрипты softwarer не вручную набивал

вместо подготовки к неизвестным сбоям лучше запланируйте Учебную тревогу.
Уверяю, открытий чудных будет много.
Что толку в свежеподнятой базе если апп сервер остался в обесточенном ЦОД. А как он (апп сервер) узнает, что база уже на другом сервере (строка подключения, ДНС, актив директори). А какой нибудь файл сервер с шарой для "очень важного обмена данных" будет доступен?
Конечно это задача не для ДБА, а для начальника АйТи по конторе - отрисовать и протестировать все зависимости.
Еще веселей будет если проводить тесты будут не те кто писал инструкции.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39963084
Фотография Relic Hunter
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
SERG1257
вместо подготовки к неизвестным сбоям лучше запланируйте Учебную тревогу.
хоспаде... если ИТ инфраструктуре нужна высокая доступность, то её так и нужно проектировать изначально, с дублированием всех ресурсов. если не нужна, пишите ДР и устраивайте тревоги.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39963102
xander1983
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Гость
SERG1257
Конечно это задача не для ДБА, а для начальника АйТи по конторе - отрисовать и протестировать все зависимости.


Коим я и являюсь.

SERG1257
Еще веселей будет если проводить тесты будут не те кто писал инструкции.


Ну да, в идеале так и должно быть.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39963148
SERG1257
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Relic Hunter если ИТ инфраструктуре нужна высокая доступность, то её так и нужно проектировать изначально, с дублированием всех ресурсов.Хотел бы я быть таким же умным до, как моя жена потом.
И потом если бюджет позволяет, то почему дублировать. Одну реплику сделаем синхронной для HA, другую асинхронной с отложенной записью для DR.

xander1983 Коим я и являюсь.Ну тогда вам и карты в руки.
Проводите мысленный эксперимент: что-то случилось.
Что будете делать (порядок действий)
Сколько займет восстановление в самом лучшем случае
На какую дату восстановим в лучшем случае.

Если данные по оценкам RTO, RPO устраивают заказчика (бизнес), то все замечательно (осталось только протестировать план на предмет, а не слишком ли оптимистичные оценки).
Если не устраивают, то появляется бюджет в рамках которого можно что-то предпринимать (вплоть до того, чтобы переводить инфраструктуру в облака)

В любом случае это будет продуктивнее чем копатся в скриптах, транзакциях, коннектах и журналах.
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39963281
Dimitry Sibiryakov
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
xander1983Но вот допустим архивирую я WAL, 1го числа хакеры изменили данные. 2го числа система
работала в штатном режиме и апдейтила данные.

Обычно Disaster Plan не включает в себя таки вещи, как падение метеорита на ДЦ, хакеров и
11-е сентября.

Начните с малого: расписывайте план действий для каждой из наиболее частых причин выхода
базы из строя. Сбой дисковой системы, отказ блока питания, увольнение админа.
Posted via ActualForum NNTP Server 1.5
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39963571
Фотография Relic Hunter
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
Dimitry Sibiryakov
Начните с малого: расписывайте план действий для каждой из наиболее частых причин выхода
базы из строя. Сбой дисковой системы, отказ блока питания, увольнение админа.

DR!
- починить дисковую систему
- починить блок питания
- нанять нового админа
...
Рейтинг: 0 / 0
Disaster Recovery Plan и т.д.
    #39968719
Фотография mayton
Скрыть профиль Поместить в игнор-лист Сообщения автора в теме
Участник
В первом варианте автор теряет 1 день данных.
...
Рейтинг: 0 / 0
21 сообщений из 21, страница 1 из 1
Форумы / Проектирование БД [игнор отключен] [закрыт для гостей] / Disaster Recovery Plan и т.д.
Целевая тема:
Создать новую тему:
Автор:
Закрыть
Цитировать
Найденые пользователи ...
Разблокировать пользователей ...
Читали форум (0):
Пользователи онлайн (0):
x
x
Закрыть


Просмотр
0 / 0
Close
Debug Console [Select Text]