Глоссарий

Обучение с применением подкрепления

Откройте для себя обучение с подкреплением, в котором агенты оптимизируют действия путем проб и ошибок для получения максимального вознаграждения. Изучите концепции, приложения и преимущества!

Обучение с подкреплением (RL) - это область машинного обучения (ML), в которой интеллектуальный агент учится принимать оптимальные решения методом проб и ошибок. В отличие от других парадигм обучения, агенту не указывают, какие действия ему следует предпринять. Вместо этого он взаимодействует с окружающей средой и получает обратную связь в виде поощрений или наказаний. Основная цель агента - выработать стратегию, известную как политика, которая максимизирует его совокупное вознаграждение с течением времени. Этот подход вдохновлен поведенческой психологией и особенно эффективен для решения последовательных задач принятия решений, как описано в основополагающем тексте Саттона и Барто.

Как работает обучение с подкреплением

Процесс RL моделируется как непрерывный цикл обратной связи, включающий несколько ключевых компонентов:

  • Агент: Обучающийся и принимающий решения, например, робот или игровая программа.
  • Окружающая среда: Внешний мир, с которым взаимодействует агент.
  • Состояние: Снимок окружающей среды в определенный момент, предоставляющий агенту информацию, необходимую для принятия решения.
  • Действие: Действие, выбранное агентом из набора возможных вариантов.
  • Вознаграждение: Числовой сигнал, посылаемый агенту из окружающей среды после каждого действия и указывающий, насколько желательным было это действие.

Агент наблюдает за текущим состоянием среды, выполняет действие и получает вознаграждение вместе со следующим состоянием. Этот цикл повторяется, и благодаря этому опыту агент постепенно совершенствует свою политику, отдавая предпочтение действиям, которые приводят к более высоким долгосрочным вознаграждениям. Формальные рамки этой задачи часто описываются марковским процессом принятия решений (MDP). К популярным алгоритмам RL относятся Q-learning и Policy Gradients.

Сравнение с другими парадигмами обучения

RL отличается от других основных типов машинного обучения:

Применение в реальном мире

RL добилась значительных успехов в самых разных сложных областях:

  • Игра: Агенты РЛ достигли сверхчеловеческой производительности в сложных играх. Яркий пример - AlphaGo от DeepMind, который научился побеждать лучших игроков мира в го. Другой пример - работа OpenAI над Dota 2, где агент изучал сложные командные стратегии.
  • Робототехника: RL используется для обучения роботов сложным задачам, таким как манипулирование объектами, сборка и локомоция. Вместо явного программирования робот может научиться ходить или хватать предметы, получая вознаграждение за успешные попытки в симулированной или реальной среде. Это ключевая область исследований в таких учреждениях, как Лаборатория исследований искусственного интеллекта Беркли (BAIR).
  • Управление ресурсами: Оптимизация операций в сложных системах, таких как управление транспортными потоками в городах, балансировка нагрузки в энергосетях и оптимизация химических реакций.
  • Рекомендательные системы: RL можно использовать для оптимизации последовательности элементов, рекомендуемых пользователю, чтобы максимизировать долгосрочное вовлечение и удовлетворенность, а не просто немедленные клики.

Актуальность в экосистеме искусственного интеллекта

Обучение с подкреплением - важнейший компонент широкого ландшафта искусственного интеллекта (ИИ), особенно для создания автономных систем. Хотя такие компании, как Ultralytics, специализируются на моделях ИИ для зрения, таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров с помощью контролируемого обучения, возможности восприятия этих моделей являются важными исходными данными для агентов RL.

Например, робот может использовать модель YOLO для восприятия, развернутую через Ultralytics HUB, чтобы понять свое окружение ("состояние"). Затем политика RL использует эту информацию для принятия решения о своем следующем шаге. Эта синергия между компьютерным зрением (CV) для восприятия и RL для принятия решений является основополагающей для создания интеллектуальных систем. Эти системы часто разрабатываются с использованием таких фреймворков, как PyTorch и TensorFlow, и часто тестируются в стандартизированных средах моделирования, таких как Gymnasium (бывший OpenAI Gym). Для улучшения соответствия модели предпочтениям человека все большее значение в этой области приобретают такие методы, как обучение с подкреплением на основе человеческой обратной связи (RLHF). Прогресс в области RL постоянно стимулируется такими организациями, как DeepMind, и научными конференциями, такими как NeurIPS.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена