Глоссарий

Обучение с подкреплением на основе человеческой обратной связи (RLHF)

Узнай, как Reinforcement Learning from Human Feedback (RLHF) улучшает производительность ИИ, согласовывая модели с человеческими ценностями для более безопасного и умного ИИ.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Reinforcement Learning from Human Feedback (RLHF) - это передовая техника машинного обучения (ML), призванная привести модели ИИ, в частности большие языковые модели (LLM) и другие генеративные системы, в большее соответствие с намерениями и предпочтениями человека. Она совершенствует стандартную парадигму обучения с подкреплением (RL) за счет включения обратной связи от человека непосредственно в цикл обучения, направляя искусственный интеллект (ИИ) на обучение поведению, которое является полезным, безвредным и честным, даже если эти качества трудно определить с помощью традиционных функций вознаграждения. Такой подход крайне важен для разработки более безопасных и полезных систем ИИ, позволяющих выйти за рамки простых показателей точности и перейти к нюансам, соответствующим человеческим ценностям.

Как работает RLHF

RLHF обычно включает в себя многоступенчатый процесс, который объединяет человеческие суждения для обучения модели вознаграждения, которая затем направляет тонкую настройку основной модели ИИ:

  1. Предварительное обучение модели: Начальная модель (например, LLM) обучается с помощью стандартных методов, часто контролируемого обучения, на большом наборе данных. Эта модель может генерировать релевантный контент, но ей может не хватать специфического выравнивания.
  2. Сбор обратной связи с человеком: Предварительно обученная модель генерирует множество результатов на различные подсказки. Люди оценивают эти результаты по качеству, полезности, безвредности или другим желаемым критериям. Такая сравнительная обратная связь часто более надежна и проще для людей, чем абсолютные оценки. Эти данные формируют набор данных о предпочтениях.
  3. Обучение модели вознаграждения: Отдельная модель, известная как модель вознаграждения, обучается на данных о предпочтениях человека. Ее цель - предсказать, какой выход предпочтет человек, по сути, научиться подражать человеческим суждениям и назначать скалярный сигнал вознаграждения.
  4. Тонкая настройка с помощью Reinforcement Learning: Затем исходная модель ИИ подвергается тонкой настройке с помощью RL (в частности, таких алгоритмов, как Proximal Policy Optimization (PPO)). На этом этапе модель вознаграждения обеспечивает сигнал вознаграждения. Модель ИИ исследует различные выходы, и те, которым благоприятствует модель вознаграждения, подкрепляются, направляя поведение модели в сторону предпочтений человека. Основополагающие концепции RL подробно описаны в таких ресурсах, как введение Саттона и Барто.

Этот итерационный цикл помогает модели ИИ изучать сложные, субъективные цели, которые трудно определить программно, улучшая такие аспекты, как этика ИИ и уменьшая алгоритмическую предвзятость.

RLHF против смежных концепций

  • Стандартное обучение с подкреплением (RL): Традиционное RL опирается на явно запрограммированные функции вознаграждения, основанные на состояниях и действиях окружающей среды. RLHF заменяет или дополняет их выученной моделью вознаграждения, основанной на предпочтениях человека, что позволяет улавливать более тонкие или субъективные цели. Изучи глубокое обучение с подкреплением для более продвинутых техник RL.
  • Конституционный искусственный интеллект (CAI): Разработанный Anthropic, CAI - это альтернативная техника выравнивания. В то время как RLHF использует человеческую обратную связь для обучения модели вознаграждения как полезности, так и безвредности, CAI использует обратную связь ИИ, руководствуясь предопределенной "конституцией" (набором правил или принципов), чтобы контролировать модель на предмет безвредности, часто все еще используя человеческую обратную связь для полезности. Подробнее о CAI читай в исследованииAnthropic.

Основные области применения RLHF

RLHF приобретает все большее значение в приложениях, где поведение ИИ должно тесно соответствовать человеческим ценностям и ожиданиям:

  • Улучшение чатботов и виртуальных помощников: Сделай разговорный ИИ более увлекательным, полезным и менее склонным к генерации вредных, предвзятых или бессмысленных ответов. Это предполагает тонкую настройку таких моделей, как GPT-4.
  • Генерация контента: Доработка моделей для таких задач, как резюмирование или генерация текстов, для получения результатов, которые лучше соответствуют желаемым стилям или стандартам качества.
  • Персонализация рекомендательных систем: Настрой рекомендательные системы так, чтобы они предлагали контент, который пользователи действительно находят интересным или полезным, помимо простого количества кликов.
  • Разработка более безопасных автономных автомобилей: Учет человеческих предпочтений относительно стиля вождения (например, плавность, напористость) наряду с правилами безопасности.

Примеры из реальной жизни

Выравнивание чатботов

Такие компании, как OpenAI и Anthropic широко используют RLHF для обучения своих больших языковых моделей (например, ChatGPT, Claude). Заставляя людей оценивать различные ответы, генерируемые ИИ, по степени полезности и безвредности, они обучают модели вознаграждения, которые направляют ЛЛМ на создание более безопасного, этичного и полезного текста. Это позволяет снизить риски, связанные с вредными или необъективными результатами, и соблюсти принципы ответственной разработки ИИ.

Предпочтения в автономном вождении

При разработке ИИ для самоуправляемых автомобилей RLHF может учитывать отзывы водителей или пассажиров о моделируемом поведении водителя (например, о комфорте при смене полосы движения, плавности разгона, принятии решений в неоднозначных ситуациях). Это помогает ИИ научиться стилю вождения, который не только безопасен по объективным показателям, таким как дистанция или ограничения скорости, но и комфортен и интуитивно понятен человеку, что повышает доверие и одобрение пользователей. Это дополняет традиционные задачи компьютерного зрения, такие как обнаружение объектов, выполняемые такими моделями, как Ultralytics YOLO.

Преимущества RLHF

  • Улучшенное согласование: Непосредственно учитывает предпочтения человека, что приводит к созданию систем ИИ, которые лучше соответствуют намерениям и ценностям пользователей.
  • Работа с субъективностью: Эффективен для задач, где качество субъективно и его трудно определить с помощью простой метрики (например, креативность, вежливость, безопасность).
  • Повышенная безопасность: Помогает снизить вероятность того, что ИИ будет генерировать вредный, неэтичный или предвзятый контент, благодаря обучению на основе человеческих суждений о нежелательных результатах.
  • Адаптивность: Позволяет дорабатывать модели для конкретных областей или групп пользователей на основе целевой обратной связи.

Проблемы и будущие направления

Несмотря на свои сильные стороны, RLHF сталкивается с проблемами:

  • Масштабируемость и стоимость: Сбор высококачественных человеческих отзывов может быть дорогим и отнимать много времени.
  • Качество и предвзятость отзывов: человеческие предпочтения могут быть непоследовательными, предвзятыми или не иметь опыта, что потенциально может привести к предвзятости набора данных в модели вознаграждения. Обеспечение разнообразной и репрезентативной обратной связи крайне важно.
  • Взлом вознаграждения: ИИ может найти способы максимизировать вознаграждение, предсказанное моделью вознаграждения, не выполняя на самом деле предполагаемые предпочтения человека (это известно как взлом вознаграждения или спецификационная игра).
  • Сложность: реализация полного конвейера RLHF требует опыта в различных областях ML, включая контролируемое обучение, обучение с подкреплением и управление крупномасштабным обучением моделей.

Будущие исследования направлены на более эффективные методы обратной связи (например, использование помощи ИИ для маркировки), смягчение предвзятости, повышение надежности моделей вознаграждения и применение RLHF к более широкому спектру задач ИИ. Такие инструменты, как библиотека TRLHugging Face, облегчают реализацию RLHF. Такие платформы, как Ultralytics HUB, предоставляют инфраструктуру для управления наборами данных и обучающими моделями, что потенциально может интегрировать механизмы обратной связи с человеком в будущем для специализированных задач выравнивания в таких областях, как компьютерное зрение. Подробнее о том, как начать работу с такими платформами, читай в руководствеUltralytics HUB Quickstart. Понимание RLHF становится все более важным для эффективного проведения операций машинного обучения (MLOps) и обеспечения прозрачности ИИ.

Читать полностью