DатаРу 17 января 2025

DRaaS и высокие ставки бизнеса: как не потерять данные и репутацию

ИТ-эксперт рассказывает о новой роли Disaster Recovery as a Service (DRaaS) для резервирования и аварийного восстановления данных

Андрей Дорохин
Ведущий менеджер направления «DатаРу Облако»

ИТ-эксперт

В условиях стремительной цифровизации бизнеса надежность ИТ-инфраструктуры становится все более критически важной день ото дня. Финансовые операции, управление цепочками поставок, электронная коммерция и множество других процессов зависят от бесперебойной работы систем и доступности данных. Любой сбой в ИТ-инфраструктуре чреват остановкой операций, потерей клиентов и значительными финансовыми убытками.

Компании сталкиваются сегодня со следующими вызовами:

1. Рост количества кибератак. Программы-вымогатели (ransomware), включая, так называемые программы-шифровальщики, стали угрозой №1: они не только  блокируют доступ к данным, но и шифруют их, делая восстановление без выкупа крайне сложным.  Отсутствие готовности к таким инцидентам может обернуться катастрофой для бизнеса, выражающейся в длительных простоях и значительных финансовых потерях;

2. Технические сбои. Отказы оборудования, ошибки программного обеспечения и перебои в электроснабжении остаются частыми причинами простоев даже в самых современных ИТ-системах;

3. Природные катастрофы и аварии. Наводнения, пожары, землетрясения и даже локальные отключения электроэнергии могут разрушить физическую инфраструктуру;

4. Ошибки сотрудников. Человеческий фактор остается одной из основных причин потери данных — от случайного удаления информации до неправильной конфигурации настроек систем.

В таком контексте решения класса Disaster Recovery as a Service (DRaaS) перестают быть просто «страховкой» и становятся стратегическим инструментом, обеспечивающим бизнесу устойчивость и непрерывность. Особенно это актуально в эпоху цифровой трансформации, которая охватывает практически все отрасли.

Принципы работы

DRaaS работает следующим образом: данные, приложения и системы постоянно копируются и обновляются в облаке, что позволяет поддерживать их актуальность. Если основная инфраструктура выходит из строя, система автоматически переключается на резервные мощности — серверы или виртуальные машины.

Все процессы автоматизированы: DRaaS выполняет мониторинг состояния системы, регулярные тесты на готовность и автоматическое переключение на резервные мощности при сбоях. Это снижает риски и ускоряет восстановление.

Процесс восстановления полностью автоматизирован, что минимизирует время простоя. Дополнительно DRaaS позволяет настроить приоритеты восстановления — от отдельных приложений до полной инфраструктуры, чтобы минимизировать влияние инцидентов на ключевые бизнес-процессы. Кроме того, DRaaS регулярно тестируется, чтобы подтвердить свою готовность в случае реального инцидента. Это делает его надежным инструментом для защиты от кибератак, технических сбоев и даже природных катастроф.

Важно понимать, что DRaaS и Backup as a Service (BaaS) — разные подходы, решающие разные задачи. BaaS обеспечивает сохранность данных, но не позволяет быстро восстановить инфраструктуру после сбоя. Например, при поломке сервера данные будут в безопасности, но запуск системы займет время.

В отличие от него DRaaS предлагает комплексное решение, включающее не только резервное копирование, но и оперативное восстановление всей инфраструктуры. Это включает автоматическое развертывание резервных серверов, синхронизацию данных и минимизацию ручного вмешательства, что делает процесс восстановления максимально быстрым. Это делает его незаменимым для компаний, где простои недопустимы. Это могут быть банки, онлайн-ритейлеры или телекоммуникационные операторы.

Однако для долгосрочного хранения архивных данных или документов BaaS остается более практичным вариантом. В некоторых случаях эти два решения эффективно дополняют друг друга. Например, BaaS может использоваться для хранения данных, а DRaaS — для защиты критически важных систем, где каждая минута простоя обходится в миллионы рублей.

Критерии выбора

Данные показывают, что частота сбоев и их последствия становятся все более ощутимыми для бизнеса. В России крупные компании сталкиваются с одним-двумя критическими инцидентами в месяц, что суммарно составляет около 24 серьезных сбоев в год. Без использования DRaaS восстановление инфраструктуры может занимать от 12 до 48 часов в зависимости от сложности системы. DRaaS позволяет сократить этот показатель до 15 минут — 1 часа, что существенно снижает убытки.

Выбор DRaaS-решения требует учета ключевых факторов. Прежде всего, это RTO (Recovery Time Objective), который определяет, как быстро инфраструктура сможет вернуться в рабочее состояние. Например, интернет-магазину критично восстановление за 15–60 минут, иначе он рискует потерять выручку и клиентов. Для других отраслей, таких как финансовая или медицинская, время восстановления может быть еще более критичным, так как простои приводят  не только к финансовым, но и к репутационным потерям.

Другой важный показатель — точка восстановления (Recovery Point Objective, RPO), определяющая, сколько данных может быть потеряно. Банки, например, требуют создания RPO как минимум каждые пять минут, чтобы минимизировать риски для финансовых операций. Компании, работающие с конфиденциальной информацией, например, юридические фирмы или исследовательские организации, предъявляют аналогичные высокие требования к RPO, чтобы гарантировать минимум потери данных.

Гибкость и возможность настройки под задачи бизнеса также играют важную роль. Компании из разных отраслей предъявляют разные требования: производители могут акцентировать внимание на восстановлении систем управления оборудованием, а торговые сети — на защите CRM. Для стартапов и компаний малого бизнеса особую ценность представляет возможность быстро масштабировать ресурсы и добавлять новые конфигурации.

Тестирование и мониторинг завершает список ключевых требований: без регулярной проверки невозможно гарантировать, что система справится с реальной угрозой. Еще одним важным аспектом является возможность автоматического уведомления о результатах тестов и потенциал для адаптации на основе анализа прошлых инцидентов.

Важность Disaster Recovery Plan (DRP)

При работе с DRaaS одним из ключевых элементов является соглашение об уровне обслуживания (SLA). Это документ, который определяет обязательства поставщика и гарантирует выполнение RTO и RPO. SLA служит не только гарантией качества, но и основой для прозрачных отношений между клиентом и поставщиком.

Например, SLA может предусматривать, что RTO не должно превышать 30 минут, а в случае несоблюдения условий клиенту полагается компенсация. Помимо этого, важно изучить время реакции техподдержки и условия взаимодействия в случае инцидентов.

Репутация поставщика также играет значительную роль. Оцените его кейсы и отзывы, особенно если они связаны с вашей отраслью. Поставщики с подтвержденным опытом работы в вашей сфере могут предложить более адаптированные решения, что снизит риски внедрения.

Однако внедрение DRaaS требует не только выбора подходящего поставщика, но и составления Disaster Recovery Plan (DRP). Это подробный план действий, который становится основой для быстрого и организованного реагирования на инциденты. DRP помогает минимизировать время на принятие решений, заранее определив, кто и за что отвечает. Например, если в DRP прописано, что при сбое ERP-системы ИТ-менеджер обязан активировать DRaaS и восстановить сервер из резервной копии, это исключает задержки и хаос в моменте. Четкость действий в DRP особенно важна для крупных компаний с многокомпонентной инфраструктурой.

DRP также снижает риск ошибок в стрессовых ситуациях. Когда каждый шаг заранее описан, сотрудники действуют по инструкции, минимизируя последствия инцидента. Например, при кибератаке DRP может предусматривать немедленное отключение серверов от сети для предотвращения распространения вируса. Кроме того, DRP может включать сценарии реагирования в случае различных угроз, в том числе природных катастроф или отказа оборудования.

Наличие DRP имеет юридическую ценность. В условиях жестких требований к защите данных, таких как GDPR, документ служит доказательством того, что компания приняла все необходимые меры для предотвращения инцидентов. Для российских компаний это также актуально в контексте выполнения требований национального законодательства в области защиты информации.

Формирование требований к DRaaS и ТЗ

Для того чтобы DRaaS действительно обеспечивал эффективность и надежность, важно грамотно составить техническое задание (ТЗ) для его внедрения. Этот процесс включает несколько ключевых шагов, которые помогут согласовать ожидания бизнеса и возможности поставщика.

1. Определите цели и приоритеты

В первую очередь, важно понять, какие бизнес-процессы являются критически важными и должны быть восстановлены незамедлительно в случае сбоя. Например, для интернет-магазина это может быть база данных клиентов, платежные системы или система управления заказами.  В ТЗ следует четко указать приоритетные системы и данные, требующие немедленного восстановления.

2. Укажите RTO и RPO

RTO (Recovery Time Objective) — это время, в течение которого система должна быть восстановлена. Например, для банковского процессинга допустимое время простоя может составлять не более 15 минут, тогда как для складского учета это может быть 1 час.
RPO (Recovery Point Objective) определяет, сколько данных можно потерять без критического ущерба. Например, потеря данных за 5 минут может быть допустимой для CRM-системы, но неприемлемой для бухгалтерии.

3. Обязательно тестирование системы

Для уверенности в готовности системы к реальным инцидентам необходимо предусмотреть регулярное тестирование DRaaS. В ТЗ следует указать, что тесты должны проводиться с определенной периодичностью, например, ежеквартально, а поставщик обязан предоставлять детализированные отчеты по  их итогам.

4. Время реакции технической поддержки

Важным пунктом является скорость реагирования команды техподдержки в случае инцидента. В ТЗ можно прописать, что критические запросы должны обрабатываться в течение 5–10 минут, а техническая поддержка должна быть доступна круглосуточно.

5. Учет бюджета и сроков реализации

ТЗ должно включать указание предполагаемого бюджета на внедрение DRaaS, а также сроки выполнения проекта. Например, можно установить, что DRaaS для всей инфраструктуры должен быть развернут в течение трех месяцев с момента подписания контракта. Это помогает обеим сторонам четко понимать рамки проекта.

6. Гибкость настроек и масштабируемость

Также важно указать в ТЗ, что решение должно быть гибким и масштабируемым. Это означает, что при необходимости можно будет добавить новые ресурсы или изменять параметры конфигурации, чтобы соответствовать меняющимся требованиям бизнеса.

7. Учет специфики отрасли

Если ваша компания работает в специфической отрасли, такой как финансы или здравоохранение, необходимо предусмотреть дополнительные меры безопасности и соблюсти требования законодательства, например, шифрование данных или стандарты хранения информации.

8. Прозрачность взаимодействия

В ТЗ следует предусмотреть механизмы оперативного взаимодействия с поставщиком, включая возможность быстрого внесения изменений в конфигурацию DRaaS при изменении потребностей бизнеса.

Эти шаги помогут создать систему DRaaS, которая будет не просто работать, а эффективно защищать ваш бизнес от сбоев и минимизировать возможные потери. Простота и четкость формулировок в ТЗ позволят всем участникам проекта понимать свои задачи и обязанности.

Оценка эффективности: какие метрики важны

Чтобы убедиться, что DRaaS эффективно защищает бизнес, необходимо регулярно отслеживать ключевые показатели работы сервиса. Эти метрики позволяют не только оценить текущее состояние системы, но и своевременно выявлять области для улучшения.

Так, показатели RTO должны соответствовать заявленному в SLA. Если поставщик гарантирует RTO в 30 минут, но тестирование показывает, что восстановление занимает 45 минут, это явный сигнал для пересмотра условий или доработки системы. Следует также учитывать, что некоторые бизнес-процессы могут требовать еще более жестких временных рамок, что требует гибкой настройки SLA под индивидуальные потребности.

По аналогии: если SLA обещает RPO в 5 минут, а на практике оказывается, что данные за последние 15 минут недоступны, это нарушение, требующее оперативного вмешательства. Особенно важно регулярно тестировать процессы, чтобы оценить, насколько часто и корректно выполняются копии данных.

Еще один ключевой показатель — успешность тестов восстановления. Регулярное тестирование позволяет оценить, насколько система готова к реальным инцидентам. Например, если из четырех тестов, проведенных за год, один завершился с ошибками, это свидетельствует о необходимости оптимизации. Дополнительно рекомендуется документировать итоги каждого теста и на их основе создавать рекомендации для улучшения системы.

Доступность сервиса также играет важную роль. Показатель времени доступности должен быть не ниже 99,9%. Любые отклонения от этого уровня снижают надежность DRaaS. В идеале мониторинг доступности должен проводиться в режиме реального времени с автоматическими уведомлениями при отклонении от нормы.

Наконец, стоит учитывать время реакции техподдержки. Если SLA гарантирует, что запросы будут обрабатываться в течение пяти минут, но ответы приходят только через 15 минут, это подрывает общую эффективность сервиса. Эффективное взаимодействие с техподдержкой также включает в себя возможность круглосуточной связи с инженерами по критическим вопросам.

Регулярный мониторинг всех этих метрик не только подтверждает, что DRaaS соответствует заявленным требованиям, но и гарантирует, что бизнес остается защищенным в условиях растущих рисков и угроз. Такой подход помогает не только минимизировать последствия возможных сбоев, но и оптимизировать работу ИТ-систем в долгосрочной перспективе.