Глоссарий

Обучение с подкреплением

Открой для себя обучение с подкреплением, в котором агенты оптимизируют действия методом проб и ошибок для получения максимального вознаграждения. Изучи концепции, приложения и преимущества!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Reinforcement Learning (RL) - это тип машинного обучения (ML), в котором интеллектуальный агент учится принимать последовательность решений, пытаясь максимизировать вознаграждение, которое он получает за свои действия. В отличие от контролируемого обучения, в котором обучение происходит на помеченных примерах, или неконтролируемого обучения, которое находит закономерности в немеченых данных, RL учится методом проб и ошибок, взаимодействуя с окружающей средой. Агент получает обратную связь в виде вознаграждений или наказаний в зависимости от своих действий, направляя процесс обучения на достижение конкретной цели.

Основные понятия

Несколько ключевых компонентов определяют систему Reinforcement Learning:

  • Агент: Обучающийся или принимающий решения субъект, который взаимодействует с окружающей средой.
  • Окружающая среда: Внешняя система или мир, внутри которого действует агент.
  • Состояние: Представление текущей ситуации или конфигурации окружающей среды, воспринимаемой агентом.
  • Действие: Решение или движение, принятое агентом в окружающей среде.
  • Вознаграждение: Числовой сигнал, получаемый из окружающей среды после выполнения действия и указывающий на то, насколько хорошим или плохим было это действие в конкретном состоянии. Целью агента обычно является максимизация кумулятивного вознаграждения с течением времени.
  • Политика: Стратегия или карта, которую агент использует для определения следующего действия на основе текущего состояния. По сути, это то, чему агент учится.
  • Функция ценности: Предсказание ожидаемого будущего вознаграждения, достижимого из данного состояния или при выполнении определенного действия в данном состоянии, следуя определенной политике.
  • Марковский процесс принятия решений (МПП): Математическая структура, обычно используемая для моделирования задач RL, определяющая взаимодействия между агентом и окружающей средой.

Фундаментальной проблемой в RL является компромисс между разведкой и эксплуатацией: агент должен балансировать между изучением новых действий, чтобы обнаружить потенциально более высокую награду (разведка), и выбором действий, которые, как известно, приносят хорошую награду (эксплуатация).

Как работает обучение с подкреплением

Процесс RL обычно итеративен. Агент наблюдает за текущим состоянием среды, выбирает действие на основе своей текущей политики, выполняет его и получает вознаграждение (или штраф) и следующее состояние от среды. Эта обратная связь используется для обновления политики или функции ценности агента, улучшая его принятие решений с течением времени. К распространенным алгоритмам RL относятся методы Q-learning, SARSA и Policy Gradient, каждый из которых использует различные стратегии для обучения и обновления политики. Deep Reinforcement Learning (DRL) объединяет RL с методами глубокого обучения, используя нейронные сети (NN) для аппроксимации политики или функции ценности, что позволяет RL решать задачи со сложными, высокоразмерными пространствами состояний, такими как изображения или данные датчиков.

Сравнение с другими парадигмами обучения

RL значительно отличается от других парадигм ML:

  • Супервизорное обучение: Обучается на наборе данных, содержащем помеченные примеры (пары вход-выход). Цель - выучить функцию отображения, которая предсказывает выходные данные для новых входных данных. Примеры - классификация изображений и регрессия. RL учится на основе взаимодействия и обратной связи (вознаграждения), а не на основе заранее заданных правильных ответов.
  • Неподконтрольное обучение: Изучает паттерны и структуры на основе немаркированных данных. Примеры включают кластеризацию и уменьшение размерности. RL ориентировано на достижение цели, на изучение политики для максимизации вознаграждения, в то время как бесконтрольное обучение сосредоточено на обнаружении структуры данных.

Применение в реальном мире

RL позволил совершить прорыв в различных областях:

Актуальность в экосистеме искусственного интеллекта

Reinforcement Learning - важнейший компонент более широкого ландшафта искусственного интеллекта (ИИ), особенно для создания автономных систем, способных принимать сложные решения. Хотя такие компании, как Ultralytics , специализируются на моделях ИИ видения, как Ultralytics YOLO для таких задач, как обнаружение объектов и сегментация объектов с помощью контролируемого обучения, возможности восприятия, предоставляемые этими моделями, часто являются важными входами (состояниями) для агентов RL. Например, робот может использовать модель обнаружения объектов, развернутую через Ultralytics HUB, чтобы понять свое окружение, прежде чем политика RL примет решение о его следующем движении. Понимание RL дает представление о том, как продвинутое восприятие вписывается в создание интеллектуальных автономных систем, которые часто разрабатываются с помощью таких фреймворков, как PyTorch и тестируются в симуляционных средах вроде Gymnasium (бывший OpenAI Gym). Многие реальные приложения включают в себя интеграцию восприятия(компьютерного зрения) с принятием решений (RL).

Читать полностью