ATLEX 18 октября 2024

Как добиться бесперебойной работы серверов

В интервью с руководителем технической службы ATLEX в ЦОДе DataPro мы выясняем, какие практики обеспечивают надежную работу серверов в хостинг-компании

Иван Борщев
Руководитель технической службы ATLEX

Руководитель технической службы компании ATLEX, предоставляющей услуги хостинга полного спектра.

В эпоху цифровой трансформации роль дата-центров становится все более значимой. Для таких компаний, как ATLEX, которые занимаются предоставлением услуг хостинга и аренды серверов, бесперебойная работа серверной инфраструктуры является критически важной. Мы приглашаем вас ознакомиться с эксклюзивным интервью с Иваном Борщевым, руководителем технической службы ATLEX в ЦОДе DataPro. Анна Никулина, контент-менеджер компании, выяснила, какие секреты и практики используются для обеспечения надежной работы серверов.

Как добиться бесперебойной работы серверов

Иван, спасибо, что согласились на интервью. Для начала расскажите, пожалуйста, каковы основные факторы, влияющие на бесперебойную работу серверов в ЦОДе?

Спасибо за приглашение, Анна. Главные факторы здесь — это надежность электропитания, качественное охлаждение и постоянный мониторинг состояния оборудования. И, конечно, магия. Честно говоря, нужно было бы еще добавить кофе и отсутствие полнолуний — все это помогает держать сервера в тонусе. (Смеется.) Кроме того, в разрезе вопроса бесперебойной работы серверов следует упомянуть и физическую их безопасность, а именно: круглосуточная охрана, видеонаблюдение и строгая система контроля и управления доступом.

Многие инженеры говорят, что резервные системы — это основа бесперебойной работы. Разделяете ли вы это мнение и если да, то какие резервные механизмы предусмотрены у нас?

Основная идея здесь — не полагаться на удачу. Желательно предусматривать несколько уровней резервирования: начиная от дополнительных источников питания до резервных интернет-каналов. Такой подход позволяет быстро реагировать на любые непредвиденные ситуации и подменять временно вышедшие из строя ресурсы резервными. Например, два независимых ввода электроэнергии, дублированные интернет-каналы и резервные маршрутизаторы. Кроме того, говоря о резервах не лишним будет упомянуть и собственно серверное оборудование. В частности, наличие у хостинг-провайдера склада запчастей к серверам позволяет серьезно сократить время аварийных простоев. Такой склад также может предлагаться к использованию и клиентам, размещающим в дата-центре собственные серверы.

А каковы основные предосторожности, которые следует соблюдать для предотвращения, например, перегрева оборудования?

Ну, если начинать с азов, то напрашивается первейшая вещь, а именно — следить за температурой. Инженеры должны постоянно контролировать состояние системы и регулировать мощность охлаждения. В нашем случае в дата-центре используется модульная система охлаждения EcoBreeze с системой прецизионных кондиционеров, которые больше подходят для серверных нужд, нежели кондиционеры комфортного типа. Мы постоянно мониторим температуру и влажность, чтобы наши серверы не начали чувствовать себя как в сауне, так что в плане перегревов серверы защищены по полной программе. Еще важно правильно размещать оборудование, чтобы скоординировать и обеспечить правильное движение воздушных потоков во избежание перегрева.

Как именно проходит процесс мониторинга системы и реагирования на возможные сбои?

Любую неисправность важно фиксировать на самых ранних стадиях, чтобы минимизировать ее влияние, поэтому важно использовать автоматизированные системы мониторинга, которые смогут информировать о любых изменениях или неисправностях. Это похоже на сигнализацию: как только что-то идет не так, сразу срабатывает оповещение. К отработке данных оповещения должны быть готовы оперативные сотрудники, которые мгновенно обязаны приступить к диагностике и исправлению ситуации. Инженеры, круглосуточно находящиеся непосредственно в самом здании дата-центра, а не где-нибудь в отдельном офисе, позволяют сократить время реагирования до минимума. Используемые же протоколы готовых решений, выработанные за годы, позволяют еще больше сократить время реакции.

Иван, в вашей практике были моменты, когда стандартные протоколы не помогали? Если да, то как в таких случаях решаются проблемы?

Да, несмотря на всю подготовленность, неожиданности случаются. В таких случаях на первый план выходит опыт и быстрая реакция команды. Бывает, что к решению проблемы приходится подходить творчески — быстро искать временные решения и сразу же работать над постоянными. Заранее выстроенные процессы коммуникации и высокий уровень технической подготовки инженеров и системных администраторов при таком «коллективном разуме» играют главную роль, чтобы любые задачи в итоге нашли свои решения. Опыт же, который приобретается в таких ситуациях, в итоге дополняет собой существующие протоколы.

Какие новые технологии ATLEX рассматривает для улучшения устойчивости и эффективности работы серверов?

Когда говорят о технологиях и их новизне, учитывая скорость их развития, желательно уточнять периоды и тренды, которые имеются в виду. Например, виртуализация и облачные технологии в целом помогают в вопросах гибкого распределения ресурсов, но внутри самой области постоянно умирают и рождаются новые направления, так что о каком-то конкретном решении имеет смысл говорить для конкретных ситуаций. В общем же нужно просто держать руку на пульсе текущих тенденций и стараться им соответствовать. Сейчас резонанс не утихает вокруг нейросетей и искусственного интеллекта. Мы также исследуем использование AI в качестве разнообразных помощников, чтобы предугадывать проблемы до того, как они станут большими неприятностями и оптимизировать некоторые направления.

Благодарю вас, Иван, за столь детальный разговор. Есть ли что-то, что вы хотели бы добавить в заключение?

Спасибо, Анна. Пожалуй только хочется отметить, что успех в нашей сфере зависит не только от технологий и протоколов, но и в большой степени от командной работы.

Большое спасибо за интервью, Иван. Желаю успехов всей команде!

Спасибо, Анна. Успехов и вам в вашей работе!