Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обучение с подкреплением

Изучите основные концепции реинфорсментного обучения (RL). Узнайте, как агенты используют обратную связь для освоения задач, и посмотрите, как Ultralytics обеспечивает работу систем реинфорсментного обучения.

Обучение с подкреплением (RL) — это целеориентированное подмножество машинного обучения (ML), в котором автономная система, известная как агент, учится принимать решения, выполняя действия и получая обратную связь от своего окружения. В отличие от контролируемого обучения, которое опирается на статические наборы данных, помеченные правильными ответами, алгоритмы RL обучаются через динамический процесс проб и ошибок. Агент взаимодействует с симуляцией или реальным миром, наблюдая за последствиями своих действий, чтобы определить, какие стратегии приносят наибольшую долгосрочную выгоду. Этот подход близко имитирует психологическую концепцию оперантного обусловливания, в которой поведение формируется под влиянием положительного подкрепления (вознаграждения) и отрицательного подкрепления (наказания) с течением времени.

Основные концепции цикла RL

Чтобы понять, как функционирует RL, полезно представить его в виде непрерывного цикла взаимодействия. Эта структура часто формализуется математически как процесс принятия решений Маркова (MDP), который структурирует процесс принятия решений в ситуациях, когда результаты частично случайны и частично контролируются лицом, принимающим решение.

Основные компоненты этого цикла обучения включают:

  • AI Agent( ИИ-агент): Субъект, ответственный за обучение и принятие решений. Он воспринимает окружающую среду и предпринимает действия для максимизации своего совокупного успеха.
  • Окружающая среда: внешний мир, в котором действует агент. Это может быть сложная видеоигра, симуляция финансового рынка или физический склад в сфере искусственного интеллекта в логистике.
  • Состояние: моментальный снимок или представление текущей ситуации. В визуальных приложениях это часто включает обработку данных с камер с помощью компьютерного зрения (CV) для detect и препятствий.
  • Действие: конкретный ход или выбор, который делает агент. Полный набор всех возможных ходов называется пространством действий.
  • Вознаграждение: числовой сигнал, посылаемый из окружающей среды агенту после действия. Хорошо разработанная функция вознаграждения присваивает положительные значения полезным действиям и штрафы вредным.
  • Политика: стратегия или набор правил, которые агент использует для определения следующего действия на основе текущего состояния. Алгоритмы, такие как Q-обучение, определяют, как эта политика обновляется и оптимизируется.

Применение в реальном мире

Обучение с подкреплением вышло за рамки теоретических исследований и стало применяться на практике с большим эффектом в различных отраслях.

  • Передовая робототехника: в области искусственного интеллекта в робототехнике RL позволяет машинам осваивать сложные двигательные навыки, которые трудно заложить в код. Роботы могут научиться захватывать нестандартные объекты или перемещаться по неровной поверхности, проходя обучение в физических движках, таких как NVIDIA Sim, перед тем как быть задействованными в реальных условиях.
  • Автономные системы: Автономные транспортные средства используют RL для принятия решений в реальном времени в непредсказуемых дорожных ситуациях. В то время как модели обнаружения объектов идентифицируют пешеходов и знаки, алгоритмы RL помогают определять правила безопасного вождения для слияния полос движения и навигации на перекрестках.
  • Стратегическая оптимизация: RL привлек всеобщее внимание, когда такие системы, как AlphaGoGoogle , победили чемпионов мира среди людей в сложных настольных играх. Помимо игр, эти агенты оптимизируют промышленную логистику, например, управляют системами охлаждения в дата-центрах для снижения энергопотребления.

Интеграция Vision с RL

Во многих современных приложениях «состояние», которое наблюдает агент, является визуальным. Высокопроизводительные модели, такие как YOLO26, действуют как слой восприятия для агентов RL, преобразуя исходные изображения в структурированные данные. Эта обработанная информация, такая как местоположение и класс объектов, становится состоянием, которое политика RL использует для выбора действия.

Следующий пример демонстрирует, как использовать ultralytics пакет для обработки фрейма окружения, создавая представление состояния (например, количество объектов) для теоретического цикла RL.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Дифференциация смежных терминов

Важно отличать обучение с подкреплением от других парадигм машинного обучения:

  • vs. Обучение с учителем: Обучение с учителем требует наличия знающего внешнего супервайзера, который предоставляет помеченные обучающие данные (например, «это изображение содержит кошку»). В отличие от этого, RL учится на последствиях своих собственных действий без явных меток, обнаруживая оптимальные пути путем исследования.
  • vs. Неконтролируемое обучение: Неконтролируемое обучение сосредоточено на поиске скрытых структур или паттернов в немаркированных данных (например, кластеризация клиентов). RL отличается тем, что оно явно ориентировано на цель, сосредоточено на максимизации сигнала вознаграждения, а не просто на описании структуры данных.

По мере увеличения вычислительной мощности такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF), позволяют еще больше усовершенствовать процесс обучения агентов, более точно согласовывая их цели со сложными человеческими ценностями и стандартами безопасности Исследователи часто используют стандартизированные среды, такие как Gymnasium, для тестирования и улучшения этих алгоритмов. Для команд, которые хотят управлять наборами данных, необходимыми для уровней восприятия этих агентов, Ultralytics предлагает комплексные инструменты для аннотирования и управления моделями.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас