ИТ-инфраструктура под контролем: как превратить сбои в точки роста

Почта перестала работать — продажи встали. Как своевременная ИТ-поддержка выявила «тихий» сбой и укрепила стабильность сервисов

Изображение создано с помощью ИИ сервиса Canva.com — Источник изображения: Canva.com

Задача и причина

Причина:

При отсутствии сигналов об авариях от штатного мониторинга перестала работать почта в фармкомпании.

Задача:

Установить причину, восстановить работу почты, принять меры к недопущению подобных ситуаций в дальнейшем.

Исходная ситуация

Компания, производитель и дистрибьютор фармацевтических препаратов, обслуживается по ИТ-аутсорсингу с 2024 года. В штате около 70 пользователей, при этом интенсивность цифровых процессов высокая. Сложная инфраструктура объединяет несколько юридических лиц, требующих согласованных действий и высокой дисциплины по SLA.

ИТ-команда выстроила процессы управления на основе ITIL-практик, обеспечивая оперативное реагирование и контроль качества сервисов. Для работы используется централизованная база знаний — инструмент, позволяющий быстро ориентироваться в инфраструктуре: фиксируются адреса серверов, лицензии, контакты поставщиков, инструкции для типовых задач и схемы сети. Такой формат ускоряет диагностику и предотвращает повторяющиеся инциденты.

Проблема

Ночью произошла авария у облачного провайдера. Виртуальная машина с почтовым сервером MS Exchange автоматически переместилась на другое оборудование. Формально сервер и службы работали корректно, однако почта не функционировала. Мониторинг не выявил проблему, поскольку контролировал только техническую доступность, а не работоспособность почтовых процессов.

К моменту, когда сотрудники заметили сбой, бизнес-процессы остановились: клиенты не могли обмениваться электронными письмами, что повлияло на продажи. Заявка о неполадке поступила в 09:17.

Цель и задачи

Основная цель — восстановить почтовый сервис и скорректировать систему мониторинга, чтобы подобные инциденты выявлялись автоматически, без обращения пользователя.

Дополнительные задачи включали анализ истинных причин сбоя, проведение технических изменений в инфраструктуре и пересмотр взаимодействия с облачным провайдером.

Ход решения

Заявка была автоматически повышена в приоритете. Через 14 минут инженеры системного уровня приступили к диагностике.

Быстро выявлена ночная миграция виртуальной машины и ошибки сертификатов Exchange. Причиной оказалось нарушение связи между сервером и единственным контроллером домена. В результате почтовый сервер некорректно перевыпустил внутренние сертификаты, что остановило обмен данными.

Для восстановления сервиса специалисты вручную восстановили сетевое соединение, перевыпустили валидные сертификаты, перенастроили службы и почтовые коннекторы. Сначала заработала внутренняя почта, затем — внешняя переписка. Полное восстановление прикладного уровня заняло 2 часа 47 минут.

Анализ инцидента (post mortem)

После восстановления команда провела разбор причин и результатов сбоя. Основные выводы и действия:

Пересмотрены подходы к мониторингу: теперь контролируется не только доступность серверов, но и реальная передача почты.
Подготовлены аргументы для инвестиций в резервный контроллер домена, критичный для устойчивости инфраструктуры.
Налажено взаимодействие с облачным провайдером для получения уведомлений о технических работах и сбоях заранее.
Разработаны рекомендации по повышению надежности, включая план аварийного восстановления и сценарии перехода на устойчивые облачные решения.

Вывод

Опыт показал, что зрелость ИТ-подрядчика проявляется не в полном отсутствии сбоев, а в способности проводить анализ, внедрять системные улучшения и снижать риски повторения инцидентов.

Такой подход превращает кризисы в точки роста и укрепляет доверие между бизнесом и ИТ-партнером.

Результат

Системная работа после инцидента позволила снизить уязвимость инфраструктуры и повысить предсказуемость работы сервисов.

Теперь сбои выявляются до того, как пользователи подают обращения, а ИТ-команда получила подтверждение эффективности обновленной методики.

Главный результат — повышение зрелости процессов: каждый критический случай превратился в опыт и инструмент для дальнейшего развития.

Рубрики

IT и технологии

Предыдущая новость

Внешний пентест: как узнать слабые места ИТ раньше хакеров

Следующая новость

1С тормозит: как бизнесу перестать терять деньги на медленной работе

Интересное: