Глоссарий

Обучение с подкреплением

Открой для себя силу Reinforcement Learning: подход к машинному обучению, при котором агенты взаимодействуют с окружающей средой, чтобы максимизировать вознаграждение. Узнай больше!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Reinforcement Learning (RL) - это тип машинного обучения, в котором агент учится принимать последовательность решений, взаимодействуя с окружающей средой. Агент совершает действия в этой среде и получает обратную связь в виде вознаграждений или наказаний. Цель состоит в том, чтобы агент выучил стратегию, или политику, которая максимизирует кумулятивное вознаграждение с течением времени. Этот процесс обучения вдохновлен поведенческой психологией, где обучение происходит методом проб и ошибок. В отличие от контролируемого обучения, которое опирается на меченые данные, или неконтролируемого обучения, которое фокусируется на поиске закономерностей в немеченых данных, обучение с подкреплением определяется динамикой взаимодействия между агентом и его окружением.

Ключевые понятия в обучении с подкреплением

Несколько основных концепций являются фундаментальными для понимания обучения с подкреплением:

  • Агент: Обучающийся и принимающий решения человек, который взаимодействует с окружающей средой.
  • Окружающая среда: Внешняя система, с которой взаимодействует агент. Она представляет агенту состояние и получает от него действия.
  • Состояние: Представление окружающей среды в определенный момент времени. Оно предоставляет агенту информацию, необходимую для совершения действия.
  • Действие: Движение или решение, принятое агентом, которое влияет на окружающую среду.
  • Вознаграждение: Обратная связь от окружающей среды, которая измеряет успех или неудачу действий агента. Цель агента - максимизировать общее вознаграждение с течением времени.
  • Политика: Стратегия, которую использует агент, чтобы определить следующее действие, исходя из текущего состояния. Она может быть детерминированной или стохастической.
  • Функция ценности: Функция, которая оценивает ожидаемое кумулятивное вознаграждение за нахождение в определенном состоянии или совершение определенного действия в этом состоянии.
  • Q-значение: Ожидаемый доход, начиная с заданного состояния, предпринимая определенные действия и следуя определенной политике.

Актуальность и применение обучения с подкреплением

Обучение с подкреплением привлекло к себе значительное внимание благодаря своей способности решать сложные проблемы принятия решений, которые ранее были неразрешимыми. Его актуальность распространяется на различные области, демонстрируя его универсальность и мощь. Например, в автономных транспортных средствах RL может использоваться для обучения машин ориентироваться на дорогах, принимать решения в пробках и оптимизировать маршруты. В здравоохранении алгоритмы RL могут персонализировать планы лечения на основе ответов пациентов и оптимизировать работу больницы.

Реальные примеры обучения с подкреплением

Игра в игры: Один из самых ярких примеров использования RL - в области игр. ИИ AlphaGo компании DeepMind, который победил чемпиона мира по игре в го, использовал обучение с подкреплением, чтобы овладеть игрой. Аналогичным образом AlphaZero достиг сверхчеловеческих результатов в шахматах, сёги и го, продемонстрировав силу RL в освоении сложных стратегических игр. Узнай больше об ИИ в видеоиграх в блоге Ultralytics .

Робототехника: Обучение с подкреплением широко используется в робототехнике для решения таких задач, как управление роботами, навигация и манипуляции. Например, роботы могут научиться ходить, хватать предметы и выполнять сложные задачи методом проб и ошибок, руководствуясь вознаграждением. Это особенно полезно в сценариях, где явное программирование затруднено. Изучи интеграцию компьютерного зрения в робототехнику, чтобы узнать больше.

Отличие обучения с подкреплением от смежных терминов

Хотя обучение с подкреплением - это мощная техника, важно отличать ее от других парадигм машинного обучения:

  • Супервизорное обучение: В контролируемом обучении модели тренируются на наборах данных с метками, где для каждого входа известен правильный выход. В отличие от этого, обучение с подкреплением предполагает обучение на поощрениях и наказаниях без явных меток. Изучи супервизорное обучение более подробно.
  • Неподконтрольное обучение: Неподконтрольное обучение работает с немечеными данными, стремясь обнаружить лежащие в их основе закономерности и структуры. Обучение с подкреплением, с другой стороны, фокусируется на обучении оптимальным действиям через взаимодействие с окружением. Узнай больше о неуправляемом обучении.

Технологии и инструменты в обучении с подкреплением

Несколько технологий и фреймворков поддерживают разработку и развертывание моделей обучения с подкреплением. PyTorch и TensorFlow это популярные фреймворки глубокого обучения, которые предоставляют инструменты для создания и обучения агентов RL. Кроме того, такие среды, как OpenAI Gym, предлагают стандартизированные условия для обучения и тестирования алгоритмов RL. Ultralytics также предлагает передовые решения в области компьютерного зрения, которые могут быть интегрированы с методами обучения с подкреплением. Например, модели Ultralytics YOLO можно использовать для задач обнаружения объектов в рамках RL-фреймворка. Узнай больше о развертывании моделей на странице Ultralytics HUB.

Читать полностью