Что такое отравленные нейросети, и что с ними делать
Когда-то мир впервые столкнулся с компьютерными вирусами и нашел средства защиты от них. Теперь вокруг ИИ выстраиваются барьеры против вредоносных данных

ИИ — моя сфера интереса. Я твердо уверен, что нейросети не заменят людей, но люди, использующие нейросети заменят тех, кто их не использует
Искусственный интеллект — сложная технология, требующая пристального внимания как разработчиков, так и специалистов по цифровой безопасности. Ряд упущений как во время обучения модели, так и в процессе ее эксплуатации могут привести к тому, что в алгоритм будет заложен вредоносный код, способный заблокировать работу нейросети и ввести пользователей в заблуждение, а также дать возможность злоумышленникам получить доступ к конфиденциальной информации.
Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO онлайн-университета «Зерокодер». Искусственный интеллект — важная часть моей работы. В этот раз я расскажу, как можно «отравить» нейросеть и что с этим делать.
Отравление ИИ на этапе обучения
Если говорить простыми словами, отравление ИИ происходит, когда злоумышленник намерено вносит вредоносные сэмплы в датасеты, на которых тренируют модель. В итоге в системе появляются скрытые бэкдоры — спусковые крючки, способные запустить процесс деградации нейросети, устроить критичные поломки или стать причиной ИИ-галлюцинаций.
Как показало свежее исследование компании Anthropic, достаточно всего 250 вредоносных документов со скрытым алгоритмом, реагирующим на определенные запросы, чтобы, получив их от пользователя, модель начала выдавать неверные данные или просто отказалась работать.
Как правило, если разработчики сами подготавливают базы данных для нейросетей, риски отравлений снижаются. Но зачастую датасеты для ИИ берутся у сторонних поставщиков или из открытых репозиториев. Если вредоносные материалы попадут в такие базы, под угрозой окажутся все компании, решившие ими воспользоваться.
Когда алгоритм становится особенно уязвим
Идеальной техники не существует. Любое ПО, в том числе и нейросети, имеет свои уязвимости. К примеру, алгоритм могут обмануть. Это может быть подмена всего нескольких пикселей на изображении товара, и ИИ идентифицирует дорогой телефон как дешевый аналог или наоборот. В другом случае фишинговое письмо меняется таким образом, что нейросеть считает его вполне легитимным.
Еще на этапе разработки ИИ-системы не предусмотреть ряд уязвимостей значит оставить возможность взломать алгоритм. Уже классический пример — китайская нейросеть DeepSeek отказывалась отвечать на вопросы о ряде исторических событий в КНР и политике китайского правительства. Но как только ей дали соответствующий запрос на английском языке в стиле Leet, где буквы подменяются цифрами и другими символами, модель тут же выдала исчерпывающий ответ.
Также были зафиксированы случаи, когда злоумышленники с помощью ряда промптов выясняли логику работы нейросети и получали данные, на которых она обучалась. А это — кража интеллектуальной собственности.
Ущерб от отравления ИИ
По данным отчета IO State of Information Security Report, 26% компаний в США и Великобритании столкнулись с отравлением датасетов для ИИ в течение года. В свою очередь эксперты компании HiddenLayer, специализирующейся на безопасности искусственного интеллекта и машинного обучения, сообщили: за год 45% инцидентов и нарушений работы моделей были связаны с вредоносным ПО, подхваченным из публичных репозиториев. При этом 74% крупнейших IT-компаний уверены, что они хотя бы раз сталкивались с подобными ситуациями.
Потери от отравлений ИИ-моделей — очень существенны. Один из крупнейших аналитиков рынка решений для кибербезопасности, компания Cybersecurity Ventures подсчитала, что в 2025 году глобальный ущерб от киберпреступлений, в том числе и взлома нейросетей, составил $10,5 трлн. В среднем утечка данных стала обходиться в $4,4 млн. При этом 44% всех таких утечек были использованы впоследствии для вымогательства и шантажа.
А эксперты международного проекта по повышению безопасности приложений OWASP назвали отравление датасетов одной из главных киберугроз для больших языковых моделей.
Прицельный удар по бизнесу
Отравленные ИИ-модели — это гарантированные финансовые и репутационные потери для бизнеса. По данным исследований, простой по причине некорректной работы ИИ может приводить к потерям до $100–500 тыс. в день. В особо чувствительных сферах, например, в здравоохранении восстановление ИИ-систем после утечки данных из-за взлома в среднем обходится в $7,42 млн.
В 2025 году крупнейшие потери понесли компании сферы финансов — $28,6 млрд. Но критичнее всего подобные инциденты для малого и среднего бизнеса. В среднем при возникновении подобных проблем они теряют $254 тыс. Зачастую это приводит к закрытию компании, потому что запросто может превышать ее бюджет.
План быстрого реагирования
Главные способы защитить нейросети от киберугроз — контроль источников данных для выявления подмены элементов датасетов, мониторинг эксплуатации ИИ-моделей и регулярное тестирование систем на устойчивость с помощью имитации атак. Последнее позволяет обнаружить скрытые уязвимости и бэкдоры, которые могли попасть в базы данных.
Если есть подозрение, что ИИ-модель отравлена, действовать нужно быстро и по плану. Во-первых, работу нейросети необходимо сразу остановить. Далее, если есть возможность, откатить настройки до последней чистой версии. Это напоминает процесс перезагрузки компьютера в безопасном режиме.
Разбирать инцидент должна команда быстрого реагирования — эксперт по ИИ и Data Science, способный разобраться, что именно пошло не так, специалист по кибербезопасности, который может найти следы взлома и устранить уязвимости, и юрист, в задачу которого входит оценка финансовых и репутационных рисков. С их помощью можно начинать расследование инцидента и нейтрализацию его последствий.
Помощь при отравлении ИИ
Российские бизнесмены, столкнувшиеся с отравлением корпоративных ИИ-моделей, могут обратиться за помощью в ряд организаций. Например, ФСТЭК России проверит систему на соответствие требованиям регулятора. Это особенно важно, если речь идет о критической информационной инфраструктуре.
Если инцидент связан с утечкой или искажением персональных данных, не обойтись без контакта с Роскомнадзором.
Если необходима сторонняя помощь для проведения расследования инцидента, анализа атаки, устранения уязвимостей и восстановления системы, в России работают команды высококлассных специалистов — Group-IB, Positive Technologies, Kaspersky и другие.
Понимание принципов защиты от последующих взломов дают международные стандарты и рекомендации. Например, проект OWASP разместил в открытом доступе перечни лучших практик и чек-листов по безопасности больших языковых моделей.
Но если пользователи глобальных нейросетей заметили подобное в их работе, необходимо, задокументировав доказательства, срочно прекратить работу и написать письмо разработчикам через официальные каналы.
Еще одна часть жизни
К сожалению, как только в мире появляется новая технология, злоумышленники начинают искать способ сломать ее и использовать в собственных целях. Внимательное отношение к разработке, обучению и использованию нейросетей помогает предотвратить постороннее вмешательство работу алгоритма. Но даже если кто-то сумел отравить ИИ, следуя четкому плану реагирования, можно быстро остановить его работу, а потом и удалить уязвимость.
Уровень защиты нейросетей постоянно повышается, и скоро угрозы, о которых мы говорим сегодня, потеряют смысл. Они просто перестанут быть таковыми.
ИИ — неотъемлемая часть нашей жизни, которая больше никуда не исчезнет. Но для каждой технологии есть свои правила безопасности и действий во время внештатных ситуаций. Нейросети в этом смысле ничем не отличаются от ноутбуков или смартфонов, которые могут случайно поймать вирус в сети. Соблюдая цифровую осторожность, мы остаемся в безопасности.
Рубрики
Интересное:
Новости отрасли:
Все новости:
Публикация компании
Достижения
Контакты
Рубрики