Обучение с применением подкрепления

Откройте для себя обучение с подкреплением, в котором агенты оптимизируют действия путем проб и ошибок для получения максимального вознаграждения. Изучите концепции, приложения и преимущества!

Обучение с подкреплением (RL) - это область машинного обучения (ML), в которой интеллектуальный агент учится принимать оптимальные решения методом проб и ошибок. В отличие от других парадигм обучения, агенту не указывают, какие действия ему следует предпринять. Вместо этого он взаимодействует с окружающей средой и получает обратную связь в виде поощрений или наказаний. Основная цель агента - выработать стратегию, известную как политика, которая максимизирует его совокупное вознаграждение с течением времени. Этот подход вдохновлен поведенческой психологией и особенно эффективен для решения последовательных задач принятия решений, как описано в основополагающем тексте Саттона и Барто.

Как работает обучение с подкреплением

Процесс RL моделируется как непрерывный цикл обратной связи, включающий несколько ключевых компонентов:

Агент: Обучающийся и принимающий решения, например, робот или игровая программа.
Окружающая среда: Внешний мир, с которым взаимодействует агент.
Состояние: Снимок окружающей среды в определенный момент, предоставляющий агенту информацию, необходимую для принятия решения.
Действие: Действие, выбранное агентом из набора возможных вариантов.
Вознаграждение: Числовой сигнал, посылаемый агенту из окружающей среды после каждого действия и указывающий, насколько желательным было это действие.

Агент наблюдает за текущим состоянием среды, выполняет действие и получает вознаграждение вместе со следующим состоянием. Этот цикл повторяется, и благодаря этому опыту агент постепенно совершенствует свою политику, отдавая предпочтение действиям, которые приводят к более высоким долгосрочным вознаграждениям. Формальные рамки этой задачи часто описываются марковским процессом принятия решений (MDP). К популярным алгоритмам RL относятся Q-learning и Policy Gradients.

Сравнение с другими парадигмами обучения

RL отличается от других основных типов машинного обучения:

Контролируемое обучение: При контролируемом обучении модель обучается на наборе данных, который полностью помечен правильными ответами. Например, модель классификации изображений обучается на изображениях с явными метками. В отличие от этого, RL обучается на сигналах вознаграждения без явного наблюдения за тем, какое действие является наилучшим на каждом шаге. Вы можете изучить подробное сравнение контролируемого и неконтролируемого обучения.
Неподконтрольное обучение: Эта парадигма предполагает поиск скрытых закономерностей или структур в немаркированных данных. Ее цель - исследование данных, как, например, при использовании кластеризации k-means, а не принятие решений с целью получения максимального вознаграждения.
Глубокое обучение с подкреплением (Deep Reinforcement Learning, DRL): DRL - это не другая парадигма, а усовершенствованная форма RL, которая использует глубокие нейронные сети для обработки сложных, высокоразмерных пространств состояний и действий. Это позволяет масштабировать RL на проблемы, которые раньше считались неразрешимыми, например, на обработку сырых пиксельных данных с камеры для автономных транспортных средств.

Применение в реальном мире

RL добилась значительных успехов в самых разных сложных областях:

Игра: Агенты РЛ достигли сверхчеловеческой производительности в сложных играх. Яркий пример - AlphaGo от DeepMind, который научился побеждать лучших игроков мира в го. Другой пример - работа OpenAI над Dota 2, где агент изучал сложные командные стратегии.
Робототехника: RL используется для обучения роботов сложным задачам, таким как манипулирование объектами, сборка и локомоция. Вместо явного программирования робот может научиться ходить или хватать предметы, получая вознаграждение за успешные попытки в симулированной или реальной среде. Это ключевая область исследований в таких учреждениях, как Лаборатория исследований искусственного интеллекта Беркли (BAIR).
Управление ресурсами: Оптимизация операций в сложных системах, таких как управление транспортными потоками в городах, балансировка нагрузки в энергосетях и оптимизация химических реакций.
Рекомендательные системы: RL можно использовать для оптимизации последовательности элементов, рекомендуемых пользователю, чтобы максимизировать долгосрочное вовлечение и удовлетворенность, а не просто немедленные клики.

Актуальность в экосистеме искусственного интеллекта

Обучение с подкреплением - важнейший компонент широкого ландшафта искусственного интеллекта (ИИ), особенно для создания автономных систем. Хотя такие компании, как Ultralytics, специализируются на моделях ИИ для зрения, таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров с помощью контролируемого обучения, возможности восприятия этих моделей являются важными исходными данными для агентов RL.

Например, робот может использовать модель YOLO для восприятия, развернутую через Ultralytics HUB, чтобы понять свое окружение ("состояние"). Затем политика RL использует эту информацию для принятия решения о своем следующем шаге. Эта синергия между компьютерным зрением (CV) для восприятия и RL для принятия решений является основополагающей для создания интеллектуальных систем. Эти системы часто разрабатываются с использованием таких фреймворков, как PyTorch и TensorFlow, и часто тестируются в стандартизированных средах моделирования, таких как Gymnasium (бывший OpenAI Gym). Для улучшения соответствия модели предпочтениям человека все большее значение в этой области приобретают такие методы, как обучение с подкреплением на основе человеческой обратной связи (RLHF). Прогресс в области RL постоянно стимулируется такими организациями, как DeepMind, и научными конференциями, такими как NeurIPS.

Обучение с применением подкрепления

Гибкое решение для корпоративного лицензирования, обеспечивающее инновации

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Простое обучение моделям YOLO с помощью Ultralytics HUB

Как работает обучение с подкреплением

Сравнение с другими парадигмами обучения

Применение в реальном мире

Актуальность в экосистеме искусственного интеллекта

Подробнее в этой категории

Руководство по производственным ERP-системам

Система управления производством (MES): Производство, управляемое искусственным интеллектом

Понимание аддитивного производства: Технология и варианты использования

Присоединяйтесь к сообществу Ultralytics