NAUKA 2 июня 2023

Эксплуатация по-Научному: как оператору связи управлять процессами

Как оператору связи управлять процессами. Рекомендации ITIL. Опыт Технического директора

Андрей Петров
Технический директор

Технический директор ООО «Наука-Связь» (NAUKA). В 2003 г. окончил Московский государственный университет путей сообщения по специальности «Волоконно-оптические системы передачи информации», в 2006 г. – аспирантуру этого университета. В 2011 г. получил степень MBA в Институте экономики и финансов «Синергия».

Что сейчас происходит в телеком-отрасли?

Наша отрасль показала себя неплохо и достаточно устойчиво на фоне происходящих в мире катаклизмов. Один из выводов, который можно сделать сейчас, это то, что быть классическим ШПД Оператором связи — круто, и так называемое «проклятие трубы» — может быть, и не проклятие совсем.  Главное быть самой качественной и эффективной «трубой на районе». Ключевой вопрос: как этого добиться, когда все находятся в плюс/минус одинаковых условиях, а некоторым еще и государство помогает? 

В чем эффективность оператора связи?

Один из основных элементов, обеспечивающих эффективность, по моему мнению, — это правильные и отлаженные бизнес-процессы. Именно поэтому консультанты, которые занимаются аудитом, развитием бизнеса, постановкой продаж, прежде всего делают акцент именно на бизнес-процессах. При этом, когда мы начинаем задумываться над бизнес-процессами в своей компании, надо понимать, что мы это делаем не первыми, многое уже придумано, и изобретать велосипед не стоит. Когда мы говорим о существующих стандартах и моделях бизнес-процессов в телекоме, на память приходят две аббревиатуры ITIL и NGOSS 

Что это такое (для тех, кто забыл, или не знал)?

NGOSS — это система поддержки операционной деятельности Оператора связи. Она базируется на 4-х взаимоувязанных блоках – структура и описание бизнес-процессов, набор информационных систем и их функционал, список основных сущностей с параметрами и принципы их взаимодействия. По задумке авторов все это должно облегчить взаимодействие операторов с разработчиками ПО, обеспечить мультивендорность внутри ИТ ландшафта Оператора и межоператорское взаимодействие. Блок, отвечающий за бизнес-процессы, называется eTOM – это расширенная карта бизнес-процессов оператора связи, которая представляет собой полную декомпозицию бизнес-процессов оператора и их описание. Всего в модели описано почти 2000 процессов. 

И казалось бы — просто бери, делай, и все заработает, но не тут-то было. Понять, как все это применить к реальной деятельности конкретного предприятия, непросто. Все описания и рекомендации носят очень абстрактный и академический характер. Поэтому для общего развития знать, что подобные описания и стандарты есть, конечно, стоит, но применять их в работе рекомендовать не буду.  В отличие от другой методологии или набора лучших практик в ИТ области — ITIL.

Чем эти рекомендации лучше?

ITIL — это набор рекомендаций, который изначально был разработан английским правительством в конце 80-х годов прошлого века для корректного и стандартизированного заказа услуг у различных Поставщиков, и постепенно де факто стал стандартом сервисной модели предоставления ИТ и любых других услуг.  А так как основа телекоммуникационного бизнеса — оказание услуг, то все эти рекомендации прекрасно подходят и для нашей отрасли. 

Структурно ITIL также представляет собой набор основных областей и процессов, но в отличие от eTOM дает очень подробное и практическое описание их реализации. 

Внедрение ITIL в компаниях чаще всего начинается с блока эксплуатации и службы технической поддержки (Helpdesk, ServiceDesk) и охватывает базовые процессы управления событиями, инцидентами и проблемами.

Как это работает?

Базовыми процессами для службы эксплуатации любого Оператора связи являются: управление событиями, инцидентами и проблемами.

Событием является любое явление, которое можно обнаружить и которое может оказать воздействие на оказание услуги. Т.е.  все, что происходит на сети, начиная просто от доступности оборудования, температуры на узлах, статуса BGP сессий и изменения уровней оптических сигналов в DWDM, должно быть нами обнаружено и зафиксировано. Но события надо не просто зафиксировать, они должны быть отфильтрованы и классифицированы, мы должны обеспечить соответствующую реакцию по каждому из типов событий и в итоге корректно закрыть. Тогда мы будем иметь структурированную информацию о том, что происходит на сети, с которой можно дальше работать, а не бесконечный поток данных. 

Происходить это должно в максимально автоматизированном режиме, так как количество событий на сети огромное. Отвечает за этот процесс система мониторинга. В идеале это должна быть единая (зонтичная) система, обеспечивающая сбор информации со всех элементов сети и инфраструктуры. Системой мониторинга, которая максимально распространена и позволяет решать эти задачи, является Zabbix. Мы также его используем. 

В настоящий момент мы отслеживаем больше 17 тысяч устройств и контролируем выполнение SLA по 315 клиентским услугам — частично с предоставлением клиентам доступа к этим данным.  Если разбираться с каждым таким сообщением, то не хватит никаких ресурсов, а если игнорировать их периодическое появление, то это в итоге скажется на качестве. Также Zabbix автоматически проводит фильтрацию, чтобы не регистрировать лишнее, и классификацию событий. 

Следующим процессом после управления событиями идет управление инцидентами. 

Инцидент, согласно ITIL, — это любая ситуация, прерывающая оказание действующего сервиса или услуги. И если в событиях мы работали на уровне оборудования и инфраструктуры, то здесь мы начинаем оперировать уровнем услуг и статусами клиентов. И если базовой системой для управления событиями является мониторинг, то в случае с инцидентами — это чаще всего CRM, т.к. основным входом для этого процесса являются клиентские обращения.

Входящее обращение клиента или сообщения от системы мониторинга выше определенного уровня определяют затронутый сервис, степень его деградации и уровень обслуживания. На основании этих данных инцидент получает приоритет (от низкого до высшего), который в свою очередь определяет порядок и контрольные сроки его решения. 

Далее по установленным процедурам инцидент пытается решить первая линия технической поддержки. Если не укладывается, то в определенные сроки передает на вторую и третью линию, сопровождая эти процессы информированием клиента и эскалацией внутри компании. В итоге инцидент решается.  После получения подтверждения от клиента, закрывается. Массовые инциденты, инциденты VIP клиентов и с нарушенными сроками решения поступают на анализ в службу контроля качества. 

Корректно отработанные и классифицированные инциденты позволяют анализировать ситуацию с качеством оказания услуг в целом и принимать взвешенные решения по улучшениям и модернизациям сети.

После того как мы разобрались с событиями, которые дают нам представление о том, что происходит на сети, и с инцидентами, которые позволяют судить о качестве оказания услуг, можно перейти к управлению Проблемам. 

Проблема по определению ITIL — это первопричина инцидента. Цель процесса управления проблемами — устранение повторяющихся инцидентов и составление базы знаний по типовым решениям.

В NAUKA под управлением проблемами понимается процесс выявления и устранения причин повторяющихся и массовых инцидентов, нарушения SLA и негативных отзывов от клиентов. Задачи подобного характера поступают в отдел контроля качества, который анализирует ход решения инцидента, смотрит корректность действий персонала, наличие и актуальность нужной документации, отработку схем резервирования. 

Цель процесса — это снижение вероятности повторных ошибок в ходе решения инцидентов и уменьшение негативного восприятия проблем у клиентов.

Таким образом, основой эксплуатационной  деятельности Оператора связи являются процессы ITIL: управление инцидентами — процесс, который, будучи правильно построенным, позволяет нам минимальными усилиями иметь детальную информацию о происходящем на сети. Часть событий, отфильтрованная и агрегированная, попадает на вход процесса управления инцидентами. К ней добавляются клиентские обращения и работа с Партнерами. Благодаря этому процессу мы имеем прозрачность и контроль по обработке клиентских обращений, выполнению SLA и, в целом, качеству оказания услуг. Часть наиболее критических инцидентов дальше попадает на вход процесса управления проблемами, благодаря чему мы минимизируем вероятность повторения и замыкаем контур отрицательной обратной связи от клиентов и по Партнерам. 

Базовое обучение по ITIL однозначно рекомендовано для руководящего состава подразделений, задействованных в эксплуатации.