|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
Добрый день, На работе понадобилось разработать Disaster Recovery Plan и всю сопутствующую документацию. Но не знаю с чего начать, потому как не DBA. То есть я чисто практически понимаю что надо, и более того оно давно внедрено, но вот как это оформить в документацию не понимаю. Поиск особых результатов не дал, только в общих чертах. Если коротко, то я уже давно внедрил PostgreSQL и горячую репликацию с помощью Barman, каждую ночь делается полный backup, далее в течение дня архивируются WAL, на след. день процесс повторяется. Но теперь надо все это описать в таком виде к которому более менее привыкли люди которые возможно это будут читать. Ну и заодно мне для общего развития, потому что было бы наивно предположить что я чего то не упустил. Подскажите, пожалуйста, что почитать на эту тему. Интересует общая картина для реляционных БД, а не под одну конкретную имплементацию. ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 15:24 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
xander1983 Если коротко, то я уже давно внедрил PostgreSQL и горячую репликацию с помощью Barman, каждую ночь делается полный backup, далее в течение дня архивируются WAL, на след. день процесс повторяется.Вот этого не надо. Надо изложить последовательность действий в случае если в главном датацентре пожар, наводнение, землятрясение и т.д. Как ты делал бакап неинтересно, интересно как будешь восстанавливаться. Сколько времени будет потеряно (придется вводить снова) RPO Сколько времени будешь восстанавливать RTO https://www.enterprisestorageforum.com/storage-management/rpo-and-rto-understanding-the-differences.html ... |
|||
:
Нравится:
Не нравится:
|
|||
26.05.2020, 23:19 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
xander1983 Поиск особых результатов не дал, только в общих чертах. Поиск где? Мне вот эта ссылка понравилась, а вообще поиск даже в яндексе по Disaster Recovery Plan дает много материала или вы думаете, что кому-то это нужно больше чем вам? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 00:09 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
SERG1257 Надо изложить последовательность действий в случае если в главном датацентре пожар, наводнение, землятрясение и т.д. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 00:48 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
SERG1257 Вот этого не надо. Надо изложить последовательность действий в случае если в главном датацентре пожар, наводнение, землятрясение и т.д. Как ты делал бакап неинтересно, интересно как будешь восстанавливаться. Это понятно, но в моем случае я хочу чтобы весь процесс был повторяемым. Для меня или для того кто придет мне на смену. SERG1257 Сколько времени будет потеряно (придется вводить снова) RPO Сколько времени будешь восстанавливать RTO https://www.enterprisestorageforum.com/storage-management/rpo-and-rto-understanding-the-differences.html Это понятно, спасибо за ссылку, буду читать. Еще хотел поинтересоваться у знающих людей, а вот например если тебе хакеры сломали сервер, получили доступ к ББДД и внесли изменения в данные, это считается как disaster или нет? А если это было обнаружено через, допустим, 24 часа после внесения изменений? ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 00:53 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
Relic Hunter Сейчас в админконсоли тучи ставишь галочку HA (High Availability) и всё автоматом переезжает в уцелевший ДЦ. Это при условии если используется какой нибудь AWS, но у нас это запрещено. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 00:58 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
xander1983 Еще хотел поинтересоваться у знающих людей, а вот например если тебе хакеры сломали сервер, получили доступ к ББДД и внесли изменения в данные, это считается как disaster или нет? А если это было обнаружено через, допустим, 24 часа после внесения изменений? авторDefinition of Disaster A “disaster” is an unplanned interruption of normal business operations as a result of the failure of the IT infrastructure components that are used to support the business. Hardware, software, and data could all be parts of the service that has been disrupted. Types of disasters: • Natural disaster such as floods or major storm • Physical damage or interruption of business building access 1. Service interruptions (network infrastructure, power) 2. Urban fire 3. Leakage of Hazardous materials (Gas, Water) 4. Building collapse • Software/Hardware catastrophic failure • Data compromise or corruption 1. Ransomware, malware 2. Disgruntled employee 3. Hackers, network penetrations ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 01:11 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
xander1983 Это понятно, но в моем случае я хочу чтобы весь процесс был повторяемым. Для меня или для того кто придет мне на смену. Вот и пропиши инструкцию: куда смотреть и что делать. В этом и суть вашего плана. Потом надо будет провести "учебную тревогу" xander1983 Еще хотел поинтересоваться у знающих людей, а вот например если тебе хакеры сломали сервер, получили доступ к ББДД и внесли изменения в данные, это считается как disaster или нет? А если это было обнаружено через, допустим, 24 часа после внесения изменений? Самое страшное это не хакеры, а вполне себе нормальные сотрудники, которые хотели как лучше, а получилось как всегда. И ответ на этот вопрос (не кто виноват, а что делать) тоже будет в вашем документе: что будете предпринимать. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 01:45 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
авторDefinition of Disaster A “disaster” is an unplanned interruption of normal business operations as a result of the failure of the IT infrastructure components that are used to support the business. Hardware, software, and data could all be parts of the service that has been disrupted. Types of disasters: • Natural disaster such as floods or major storm • Physical damage or interruption of business building access 1. Service interruptions (network infrastructure, power) 2. Urban fire 3. Leakage of Hazardous materials (Gas, Water) 4. Building collapse • Software/Hardware catastrophic failure • Data compromise or corruption 1. Ransomware, malware 2. Disgruntled employee 3. Hackers, network penetrations Спасибо, очевидно что данная ситуация попадает под пункт 3 (Hackers, network penetrations). ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 03:19 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
SERG1257 Самое страшное это не хакеры, а вполне себе нормальные сотрудники, которые хотели как лучше, а получилось как всегда. Да, согласен, пару раз очень даже был очевидцем когда DROP DATABASE делался на проде, при этом чувак "как всегда" думал что подключен к локалхосту. Но тут скорее вопрос дальше идет, по незнанию. Но вот допустим архивирую я WAL, 1го числа хакеры изменили данные. 2го числа система работала в штатном режиме и апдейтила данные. А 3го числа кто то понял то что случилось 1го числа. Полагаю что в данном случае откатить все на 1ое число это не вариант, потому что теряется вся инфа загруженная 2го числа. Вручную все это исправлять -- возможно тоже не вариант из за объема. И как быть в этой ситуации лично для меня не очевидно. Я поэтому и спрашиваю скорее о каком то письменном руководстве потому что вот таких неочевидных для меня моментов скорее всего будет больше одного. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 03:25 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
xander1983 Полагаю что в данном случае откатить все на 1ое число это не вариант, потому что теряется вся инфа загруженная 2го числа. Вручную все это исправлять -- возможно тоже не вариант из за объема. И как быть в этой ситуации лично для меня не очевидноДва момента: во-первых это никак не DR (это хуже) и поэтому здесь это оффтопик. во-вторых это не вам решать вариант или нет. Зовете пользователей, начальство, выкладываете варианты/риски/оценки по результатам совещания принимается решение. Вот его (решение) и выполняете. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 03:58 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
xander1983 И как быть в этой ситуации лично для меня не очевидно. И инструкцию не напишешь. У меня была одна такая ситуация, я её называю "ночь с четверга на воскресенье". Когда я сидел и пилил скрипты, которые сравнивали данные на всех серверах, вычисляли ситуацию, которая должна была бы быть, если бы "изменения второго числа" (а также последующих, пока пилил скрипты) легли на правильное состояние базы, и формировали другие скрипты, которые бы это правильное состояние восстанавливали. В середине воскресенья я позвонил начальнику и сказал - скрипты готовы, хочешь приехать на них посмотреть? Общий объём порядка двухсот мегабайт. Он спросил, что будет, если их запустить. Я сказал - ну либо всё восстановят, либо окончательно всё доломают. Он пожевал по телефону губы и сказал: запускай. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 13:04 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
[quot SERG1257#22140226]xander1983 Два момента: во-первых это никак не DR (это хуже) и поэтому здесь это оффтопик. во-вторых это не вам решать вариант или нет. Зовете пользователей, начальство, выкладываете варианты/риски/оценки по результатам совещания принимается решение. Вот его (решение) и выполняете. Ну то есть нету никаких "best practices" на этот счет? Уверен же что я не первый который может столкнуться с такой ситуацией. Насчет того что решать не мне, это все понятно, но хочется же быть готовым к такой ситуации. С таким подходом можно просто бэкап делать раз в месяц, а когда все сломается созвать совещание и сказать: "ну вот есть два варианта, коллеги....". ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 15:42 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
softwarer И инструкцию не напишешь. У меня была одна такая ситуация, я её называю "ночь с четверга на воскресенье". Когда я сидел и пилил скрипты, которые сравнивали данные на всех серверах, вычисляли ситуацию, которая должна была бы быть, если бы "изменения второго числа" (а также последующих, пока пилил скрипты) легли на правильное состояние базы, и формировали другие скрипты, которые бы это правильное состояние восстанавливали. В середине воскресенья я позвонил начальнику и сказал - скрипты готовы, хочешь приехать на них посмотреть? Общий объём порядка двухсот мегабайт. Он спросил, что будет, если их запустить. Я сказал - ну либо всё восстановят, либо окончательно всё доломают. Он пожевал по телефону губы и сказал: запускай. Ну вот да, то есть это импровизация, и на 100% избежать ее, скорее всего, не получится. Но ведь можно свести к минимуму. Например, идея с потолка, если отслеживать все подключения и связывать все транзакции с "плохим" коннектом, то, по меньшей мере, можно откатить хотя бы плохие транзакции, а дальше опять же по ситуации. Но я именно поэтому и не прошу конкретных решений, а интересуюсь литературой которая освещает эти вопросы. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 15:45 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
xander1983 Ну то есть нету никаких "best practices" на этот счет? Уверен же что я не первый который может столкнуться с такой ситуацией. Конечно нет. Тут ситуация выбора из двух зол, то есть потери будут в любом случае. xander1983 а когда все сломаетсякогда все сломается вариант один - восстанавливать. И даже в этом случае надо уведомить начальство, получить формальное одобрение. xander1983 но хочется же быть готовым к такой ситуации.изучайте свою базу и приложение (что откуда берется и куда затем деется). Тогда появляется вариант заскриптовать изменения сделаные пользователями второго числа после сбоя (давайте забудем про таинственных хакеров) при условии, что эти изменения не зависят от активности предыдущего дня. Учитесь генерить скрипты. Уверен, что эти многомегабайтные скрипты softwarer не вручную набивал вместо подготовки к неизвестным сбоям лучше запланируйте Учебную тревогу. Уверяю, открытий чудных будет много. Что толку в свежеподнятой базе если апп сервер остался в обесточенном ЦОД. А как он (апп сервер) узнает, что база уже на другом сервере (строка подключения, ДНС, актив директори). А какой нибудь файл сервер с шарой для "очень важного обмена данных" будет доступен? Конечно это задача не для ДБА, а для начальника АйТи по конторе - отрисовать и протестировать все зависимости. Еще веселей будет если проводить тесты будут не те кто писал инструкции. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 19:03 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
SERG1257 вместо подготовки к неизвестным сбоям лучше запланируйте Учебную тревогу. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 22:07 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
SERG1257 Конечно это задача не для ДБА, а для начальника АйТи по конторе - отрисовать и протестировать все зависимости. Коим я и являюсь. SERG1257 Еще веселей будет если проводить тесты будут не те кто писал инструкции. Ну да, в идеале так и должно быть. ... |
|||
:
Нравится:
Не нравится:
|
|||
27.05.2020, 23:11 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
Relic Hunter если ИТ инфраструктуре нужна высокая доступность, то её так и нужно проектировать изначально, с дублированием всех ресурсов.Хотел бы я быть таким же умным до, как моя жена потом. И потом если бюджет позволяет, то почему дублировать. Одну реплику сделаем синхронной для HA, другую асинхронной с отложенной записью для DR. xander1983 Коим я и являюсь.Ну тогда вам и карты в руки. Проводите мысленный эксперимент: что-то случилось. Что будете делать (порядок действий) Сколько займет восстановление в самом лучшем случае На какую дату восстановим в лучшем случае. Если данные по оценкам RTO, RPO устраивают заказчика (бизнес), то все замечательно (осталось только протестировать план на предмет, а не слишком ли оптимистичные оценки). Если не устраивают, то появляется бюджет в рамках которого можно что-то предпринимать (вплоть до того, чтобы переводить инфраструктуру в облака) В любом случае это будет продуктивнее чем копатся в скриптах, транзакциях, коннектах и журналах. ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2020, 06:08 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
xander1983Но вот допустим архивирую я WAL, 1го числа хакеры изменили данные. 2го числа система работала в штатном режиме и апдейтила данные. Обычно Disaster Plan не включает в себя таки вещи, как падение метеорита на ДЦ, хакеров и 11-е сентября. Начните с малого: расписывайте план действий для каждой из наиболее частых причин выхода базы из строя. Сбой дисковой системы, отказ блока питания, увольнение админа. Posted via ActualForum NNTP Server 1.5 ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2020, 12:21 |
|
Disaster Recovery Plan и т.д.
|
|||
---|---|---|---|
#18+
Dimitry Sibiryakov Начните с малого: расписывайте план действий для каждой из наиболее частых причин выхода базы из строя. Сбой дисковой системы, отказ блока питания, увольнение админа. DR! - починить дисковую систему - починить блок питания - нанять нового админа ... |
|||
:
Нравится:
Не нравится:
|
|||
28.05.2020, 19:26 |
|
|
start [/forum/topic.php?fid=32&msg=39963084&tid=1539852]: |
0ms |
get settings: |
11ms |
get forum list: |
15ms |
check forum access: |
4ms |
check topic access: |
4ms |
track hit: |
63ms |
get topic data: |
12ms |
get forum data: |
3ms |
get page messages: |
67ms |
get tp. blocked users: |
2ms |
others: | 242ms |
total: | 423ms |
0 / 0 |