ИТ-инфраструктура под контролем: как превратить сбои в точки роста
Почта перестала работать — продажи встали. Как своевременная ИТ-поддержка выявила «тихий» сбой и укрепила стабильность сервисов
Причина:
При отсутствии сигналов об авариях от штатного мониторинга перестала работать почта в фармкомпании.
Задача:
Установить причину, восстановить работу почты, принять меры к недопущению подобных ситуаций в дальнейшем.
Исходная ситуация
Компания, производитель и дистрибьютор фармацевтических препаратов, обслуживается по ИТ-аутсорсингу с 2024 года. В штате около 70 пользователей, при этом интенсивность цифровых процессов высокая. Сложная инфраструктура объединяет несколько юридических лиц, требующих согласованных действий и высокой дисциплины по SLA.
ИТ-команда выстроила процессы управления на основе ITIL-практик, обеспечивая оперативное реагирование и контроль качества сервисов. Для работы используется централизованная база знаний — инструмент, позволяющий быстро ориентироваться в инфраструктуре: фиксируются адреса серверов, лицензии, контакты поставщиков, инструкции для типовых задач и схемы сети. Такой формат ускоряет диагностику и предотвращает повторяющиеся инциденты.
Проблема
Ночью произошла авария у облачного провайдера. Виртуальная машина с почтовым сервером MS Exchange автоматически переместилась на другое оборудование. Формально сервер и службы работали корректно, однако почта не функционировала. Мониторинг не выявил проблему, поскольку контролировал только техническую доступность, а не работоспособность почтовых процессов.
К моменту, когда сотрудники заметили сбой, бизнес-процессы остановились: клиенты не могли обмениваться электронными письмами, что повлияло на продажи. Заявка о неполадке поступила в 09:17.
Цель и задачи
Основная цель — восстановить почтовый сервис и скорректировать систему мониторинга, чтобы подобные инциденты выявлялись автоматически, без обращения пользователя.
Дополнительные задачи включали анализ истинных причин сбоя, проведение технических изменений в инфраструктуре и пересмотр взаимодействия с облачным провайдером.
Ход решения
Заявка была автоматически повышена в приоритете. Через 14 минут инженеры системного уровня приступили к диагностике.
Быстро выявлена ночная миграция виртуальной машины и ошибки сертификатов Exchange. Причиной оказалось нарушение связи между сервером и единственным контроллером домена. В результате почтовый сервер некорректно перевыпустил внутренние сертификаты, что остановило обмен данными.
Для восстановления сервиса специалисты вручную восстановили сетевое соединение, перевыпустили валидные сертификаты, перенастроили службы и почтовые коннекторы. Сначала заработала внутренняя почта, затем — внешняя переписка. Полное восстановление прикладного уровня заняло 2 часа 47 минут.
Анализ инцидента (post mortem)
После восстановления команда провела разбор причин и результатов сбоя. Основные выводы и действия:
- Пересмотрены подходы к мониторингу: теперь контролируется не только доступность серверов, но и реальная передача почты.
- Подготовлены аргументы для инвестиций в резервный контроллер домена, критичный для устойчивости инфраструктуры.
- Налажено взаимодействие с облачным провайдером для получения уведомлений о технических работах и сбоях заранее.
- Разработаны рекомендации по повышению надежности, включая план аварийного восстановления и сценарии перехода на устойчивые облачные решения.
Вывод
Опыт показал, что зрелость ИТ-подрядчика проявляется не в полном отсутствии сбоев, а в способности проводить анализ, внедрять системные улучшения и снижать риски повторения инцидентов.
Такой подход превращает кризисы в точки роста и укрепляет доверие между бизнесом и ИТ-партнером.
Системная работа после инцидента позволила снизить уязвимость инфраструктуры и повысить предсказуемость работы сервисов.
Теперь сбои выявляются до того, как пользователи подают обращения, а ИТ-команда получила подтверждение эффективности обновленной методики.
Главный результат — повышение зрелости процессов: каждый критический случай превратился в опыт и инструмент для дальнейшего развития.
Рубрики
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Контакты
Социальные сети
Рубрики



