Как руководителю мониторить ключевые IT-системы финтеха со смартфона
Сервис позволяет получать критически важную информацию о статусе IT-систем в мобильном приложении — в любой точке планеты, где есть интернетЗадача:
Создать систему мобильного мониторинга в enterprise-проектах с удобной визуализацией аналитических данных и заблаговременным предупреждением аварийных ситуаций в IT-инфраструктуре. Мониторинг позволяет мгновенно получать метрики о ключевых системах, вовремя реагировать на сбои и неполадки, а также агрегировать данные для выявления закономерностей, из-за которых возникают проблемы.
Причина:
Работоспособность некоторых систем в финтехе критична для ключевых бизнес-метрик. Например, если в банке некорректно функционирует интеграция с бюро кредитных историй или форма онлайн-заявки на кредит, финансовая организация теряет прибыль. Чтобы избежать потерь, было принято решение разработать удобный и наглядный способ контроля над основными системами.
Как устроен мобильный мониторинг
QSOFT по запросу одного из системно значимых банков разработал систему мобильного мониторинга, которая подключается к уже существующей в организации аналитической системе и визуализирует технические отчеты.
Обычно подобные системы собирают только технические данные:
- скорость загрузки каталогов;
- использование оперативной и физической памяти;
- объем трафика;
- нагрузка на процессор;
- общее состояние сервера, сети, и операционной системы;
- состояние прикладных программ;
- активность жесткого диска.
Система QSOFT, помимо прочего, контролирует и бизнес-показатели. К примеру, количество ошибок, с которыми сталкиваются пользователи банковских сервисов, или скорость и качество исправления этих ошибок.
Результат внедрения: заказчик в любой момент может оценить работоспособность инфраструктуры банка, используя смартфон, и получает критически важную информацию в течение секунды после возникновения проблемы.
Выставление уровней значимости. Перед запуском системы руководитель определяет пороги реагирования. Например, для корпоративного портала можно выставить пороговое значение в 30 минут — за это время ничего критичного не произойдет. Для системы загрузки документов при оформлении заявки на ипотеку лимит должен быть значительно ниже, поскольку за полчаса финансовая организация может потерять миллионы рублей чистой прибыли.
Установка уровней реагирования. В случае аварии система передает данные ответственному менеджеру. Если проблема не решается вовремя или эскалируется, уведомление приходит уже руководителю этого менеджера. Это исключает человеческий фактор и позволяет уполномоченному руководителю вовремя включиться в устранение неполадок.
Аналитика обращений. Система автоматически меняет уровень значимости исходя из количества входящих обращений в службу поддержки. К примеру, если десятки пользователей одновременно жалуются на недоступность корпоративной почты, система автоматически повышает уровень значимости до критического. Напротив, если по вопросу зафиксировано лишь одно—два обращения, система оценивает значимость как низкую. Это позволяет направлять внимание технических специалистов на наиболее актуальные в данный момент проблемы.
В результате пользователь регулярно получает актуальные данные о структуре IT-среды, вовремя предотвращает сбои в операционной деятельности, а также снижает расходы на обслуживание IT-инфраструктуры.
Сложности с разработкой подобной системы
В QSOFT выделяют четыре наиболее сложные задачи, связанные с разработкой системы мобильного мониторинга.
Проработка визуала. Основная сложность связана с визуальной составляющей системы. Необходимо разобраться, какие именно бизнес-показатели требуется отслеживать, в каком виде поступает входящая информация, и как наиболее наглядно отображать ее для конечного пользователя. Сравнительно небольшой размер экрана смартфона вынуждает искать компактные и в то же время информативные решения.
Интеграция систем. В каждом департаменте используются свои системы мониторинга, которые нередко различаются инфраструктурно. Например, мониторинг кибербезопасности устроен значительно сложнее обработки обращений в службу поддержки. Поэтому в ходе работы необходимо разобраться в принципиально разных системах мониторинга, чтобы одновременно получать из них актуальные данные.
Такая объемная исследовательская деятельность заняла 3 месяца. На дизайн и разработку ушло еще 2,5 месяца — в итоге проект был реализован менее чем за полгода.
Сопоставление данных. Для построения диаграмм требуются одни и те же вводные данные, которые хранятся в разных системах с уникальными идентификаторами. Эти данные необходимо сопоставлять, а при расхождениях — очищать или дополнять. Причем быстро, поскольку в аварийных ситуациях каждая секунда на счету. Только после сопоставления и обработки данных возможно собирать их в таблице для передачи в приложение и последующего построения графиков.
Обеспечение гибкости. Необходимо учесть, что каждый пользователь ответственен за определенный набор информационных систем, поэтому одним из требований было добавление возможности свободно компоновать экраны приложения. Получился своего рода конструктор, где пользователь «собирает» ключевые метрики, которые позволяют ему оперативно проверять статус наиболее важных для него IT-систем.
Ответственный сотрудник может в любой момент узнать статус всех ключевых IT-систем компании: сколько продолжается аптайм, какие системы недоступны чаще всего и какие риски стоит предупредить. Результаты в цифрах: — Время простоя критически важных систем снизилось до 0,03%. — Время простоя систем среднего и низкого уровней критичности снизилось на 20%. — Скорость реакции руководителя повысилась с 7 минут до 1 минуты. — Перераспределение ресурсов экономит 30% вычислительной мощности.
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Профиль
Контакты