RLHF: зачем обучать нейросеть на основе человеческого фидбека

Чтобы ответы нейросети были ближе к нашим высоким ожиданиям, инженеры придумали обучать ее на фидбеке от человека. Разбираем, как устроена технология RLHF

RLHF: зачем обучать нейросеть на основе человеческого фидбека — Источник изображения: Сергей Шаговалеев / Сгенерировано нейросетью «Midjourney»

Вел ключевые проекты, лидировал направление системного анализа, выступал наставником, курировал построение системы ИБ компании. Драйвит освоение новых рынков и трансформацию компании. AI-евангелист

Подробнее про эксперта

Ответы, которые мы получаем от ИИ-агента, зеркалят человеческие мысли и поведение. Если порой они кажутся неуместными или формальными, это скорее отражает особенности общения людей. Мы ожидаем от ИИ большей точности и такта, но он тоже может ошибаться, не улавливая контекст или иронию.

Кажется, очевидным, что можно исправить эти недостатки ИИ-агентов, объединив усилия человека и машины. Так и появилась технология RLHF, которая позволяет моделям соответствовать высоким стандартам взаимодействия. С помощью RLHF модели обучаются на основе обратной связи от людей, что помогает им улучшать качество ответов и делать их более человечными.

Терминология

Начнем с определения термина. В словосочетании Reinforcement Learning from Human Feedback вторая часть — human feedback — понятна и чаще всего переводится как «отзывы людей». Более точным вариантом могло бы быть «обратная связь от человека», это уже детали.

Теперь давайте разберемся с Reinforcement Learning.

Reinforcement Learning (RL) — это метод машинного обучения, основанный на обучении с подкреплением, при котором агент учится принимать решения, взаимодействуя с окружающей средой. Этот процесс требует нескольких ключевых компонентов:

Агент (Agent). Система, которая принимает решения и выполняет действия.
Среда (Environment). Все, с чем взаимодействует агент, предоставляющее информацию о текущем состоянии и наградах.
Награда/Штраф (Reward). Сигнал от среды, указывающий на успешность или неудачу действий агента.
Стратегия (Policy). Правила, по которым агент выбирает действия в различных состояниях.

В отличие от классического обучения с учителем (supervised learning), в RL нет заранее размеченных данных — агент не получает информации о среде, с которой ему предстоит взаимодействовать. Обучение происходит аналогично тому, как учится человек или животное — через пробу и ошибку. Агент получает сигналы подкрепления в виде наград или штрафов за свои действия. Его цель — максимизировать награду за определенный период времени. На основе этих сигналов агент формирует стратегию взаимодействия с окружающей средой.

Таким образом, основная задача Reinforcement Learning — разработать оптимальный алгоритм (стратегию) для достижения желаемого результата в взаимодействии со средой.

Откуда агент получает сигналы

В классическом обучении с подкреплением агент получает награды (rewards) от окружающей среды, с которой он взаимодействует. Награды могут быть положительными или отрицательными и служат сигналами для оценки успешности действий агента.

Агент получает вознаграждение за выполнение желаемого действия или достижение определенной цели. Например, в игре он может заработать очки за победу над противником или успешное завершение уровня. За нежелательные действия — столкновение с препятствием или проигрыш — агент получит штраф.

Награды поступают непосредственно от среды, в которой действует агент. Например, в робототехнике агент может получать награды за успешное перемещение объектов или навигацию по маршруту.

Задачи для обучения с подкреплением

Метод обучения с подкреплением активно используется в машинном обучении и демонстрирует отличные результаты в различных сферах. Агенты, обученные с помощью RL, успешно справляются не только с задачами, где определить успех легко, но и с теми, где это сделать сложнее. Вот примеры.

Автономное вождение

При управлении автономным автомобилем часто нет однозначно правильных действий. Агенту нужно находить баланс между безопасностью, эффективностью и комфортом пассажиров. Обучение с подкреплением позволяет ему учиться на реальном опыте вождения и разрабатывать оптимальные стратегии поведения на дороге.

Торговые стратегии на финансовых рынках

В торговле ценными бумагами никто не гарантирует, что конкретное решение верно в долгосрочной перспективе. Успех зависит от множества факторов, которые трудно предсказать. Агент, обученный RL, может анализировать большие объемы данных, выявлять скрытые закономерности и адаптировать свои торговые стратегии к изменяющимся рыночным условиям.

Стратегии поведения в играх

В играх, особенно многопользовательских, часто нет однозначно верных решений. Успех зависит от действий других игроков и непредсказуемых событий. RL позволяет агентам обучаться на реальном игровом опыте и разрабатывать оптимальные стратегии поведения в различных ситуациях.

Управление ресурсами в ритейле

При управлении запасами в розничной торговле необходимо учитывать спрос, сезонность, акции поставщиков и другие факторы. Правильное решение в одном случае может быть промахом в другом. Агент, обученный RL, может адаптировать свои стратегии управления запасами к конкретным условиям каждого магазина и максимизировать прибыль.

Обучение с подкреплением особенно эффективно в задачах, где правильность решения зависит от множества факторов и нет однозначных ответов. Оно позволяет агентам учиться на опыте и разрабатывать оптимальные стратегии поведения в сложных динамических средах.

Привлекаем человека

Каждый, кто использует ChatGPT или другие ИИ-агенты, замечал, что они иногда отвечают не на вопрос в целом, а будто ухватив нескольких ключевых слов. Бывает и так, что ИИ-помощник выдает реплики, которые звучат не слишком корректно или дружелюбно, а также предлагает советы, не соответствующие общечеловеческим гуманистическим ценностям. Хотя у агентов нового поколения это происходит реже, такие случаи все еще имеют место.

ИИ-агенты пока не всегда справляются с нюансами и тонкостями запросов, контекстом и коннотациями. Они могут давать «водянистые» и бесполезные ответы.

Здесь на помощь приходит человек. Несмотря на свои ограничения, он лучше справляется с этими вызовами. Возникла идея привлечь человека к (до)обучению LLM, что дало толчок к развитию технологии RLHF (Reinforcement Learning from Human Feedback).

Суть RLHF в том, что человек — так называемый аннотатор — оценивает ответы агента, помечая их как приемлемые или неприемлемые. На основе этой обратной связи агент дообучается. Каждый цикл отзывов от человека оптимизирует модель и ее стратегию. Вероятность, что модель даст ответа, который понравится живому пользователю, повышается.

Вот как выглядит процесс RLHF:

1. Подготовка обучающих данных. Люди создают промпты (запросы) и идеальные ответы на них.

2. Предварительное обучение основной языковой модели с учителем (supervised learning). Можно использовать уже готовую предобученную модель вместо обучения с нуля.

3. Генерация ответов. Основная модель генерирует ответы на запросы из первого пункта. Аннотатор сравнивает их с идеальными ответами и оценивает их качество и полезность.

Благодаря этому фидбеку модель корректирует свою стратегию формирования ответов, приближая их к человеческим. Однако полагаться только на людей в процессе дообучения было бы слишком дорого и трудоемко. Поэтому...

4. Обучение модели вознаграждения. Она также называется reward model или preference model. Эта предварительно обученная модель дообучается на основе обратной связи от человека, чтобы лучше соответствовать его требованиям.

5. Голос человека в обучении основной модели. Модель вознаграждения оценивает ответы основной модели с «человеческой» точки зрения. Шаги 3-5 повторяются несколько раз.

6. Теперь основная модель при выборе ответа будет ориентироваться на стандарты модели вознаграждения, стремясь найти ответ, который больше всего понравится этой модели, а значит — и человеку. Так происходит оптимизация основной модели и улучшение качества ее ответов.

Области применения

Как уже упоминалось, RLHF эффективно используется для решения задач, где сложно сформулировать ожидаемое успешное действие:

→ Обработка естественного языка (Natural Language Understanding + Natural Language Processing)

Обучение с подкреплением от человека улучшает работу разговорных агентов. Например, в популярном сервисе character.ai пользователи могут оценивать сообщения от агентов и оставлять комментарии.

Эта технология помогает агентам создавать качественные саммари текста, а также лучше реагировать на эмоциональные нюансы диалога и точнее подбирать тональность ответов.

С помощью RLHF агенты учатся формулировать информацию с пользой для человека. Например, вместо простого перечисления метрик погоды — температуры, влажности и атмосферного давления — можно рассказать о том, как человек будет ощущать эти условия, как лучше одеться и вести себя за рулем в такую погоду.

Еще одна задача, где человек помогает ИИ — переводы. Качество переводов у агента, обученного с помощью фидбека от аннотаторов, значительно выше.

→ Компьютерное зрение

RLHF в моделях преобразования текста в изображение помогает повысить качество сгенерированных изображений, соответствующих ожиданиям пользователей.

→ Разработка игр

RLHF применяется для обучения игровых ботов — их работу оценивают и оптимизируют на основе человеческих оценок, а не традиционных показателей в баллах.

Успешные агенты ChatGPT и Sparrow обучаются с использованием RLHF. Это стало известно также благодаря скандалу о том, что OpenAI использовала для дообучения ChatGPT сотрудников из Кении, которые получали меньше $2 в час.

Проблемы и ограничения

Несмотря на свои преимущества, RLHF сталкивается с проблемами:

Сбор данных. Получение качественной человеческой обратной связи — это дорого и трудоемко. При этом качество фидбека является ключевым фактором для успешного обучения. На нем может сказаться предвзятость в обратной связи — например, если выборка аннотаторов недостаточно разнообразна по демографическим и другим характеристикам. Да и в целом мнение человека субъективно, поэтому ответы агента, обученного на основе человеческого фидбека, могут восприниматься по-разному разными пользователями.
Переобучение (overfitting). Агент может запоминать конкретные эпизоды фидбека, но не делать обобщений. В результате он будет хорошо работать в точно таком же контексте, но не справится с похожими ситуациями — они покажутся ему незнакомыми.
Риски манипуляции. Модели могут использовать систему обратной связи для генерации результатов, которые выглядят привлекательно, но на деле бесполезны. Агент может давать чрезмерно вежливые, но неинформативные ответы, подменять ответы на сложные вопросы общими фразами или соглашаться с пользователем без оснований.

Предыдущая новость

Обратная сторона ИИ: как используют уязвимости больших языковых моделей.

Следующая новость

Какие HR-задачи делегировать генеративному ИИ

Интересное: