Глоссарий

Глубокое обучение с подкреплением

Изучите глубокое обучение с подкреплением (DRL) и то, как оно сочетает в себе принятие решений с помощью ИИ и глубокое обучение. Научитесь использовать Ultralytics в качестве слоя восприятия уже сегодня.

Глубокое обучение с подкреплением (DRL) — это усовершенствованное подразделение искусственного интеллекта (ИИ), которое сочетает в себе возможности принятия решений обучения с подкреплением и восприятия глубокого обучения (DL). В то время как традиционное обучение с подкреплением полагается на табличные методы для сопоставления ситуаций с действиями, эти методы не справляются, когда среда сложна или визуальна. DRL преодолевает эту проблему, используя нейронные сети для интерпретации высокоразмерных входных данных, таких как видеокадры или показания датчиков, что позволяет машинам учиться эффективным стратегиям непосредственно из сырого опыта без явных инструкций со стороны человека.

Основной механизм DRL

В системе DRL агент ИИ взаимодействует с окружающей средой в дискретных временных интервалах. На каждом этапе агент наблюдает текущее «состояние», выбирает действие на основе политики и получает сигнал вознаграждения, указывающий на успех или неудачу этого действия. Основная цель — максимизировать совокупное вознаграждение с течением времени.

«Глубокий» компонент относится к использованию глубоких нейронных сетей для аппроксимации политики (стратегии действия) или функции ценности (оцениваемого будущего вознаграждения). Это позволяет агенту обрабатывать неструктурированные данные, используя компьютерное зрение (CV) для «видения» окружающей среды, как это делает человек. Эта возможность реализуется с помощью таких фреймворков, как PyTorch или TensorFlow, которые облегчают обучение этих сложных сетей.

Применение в реальном мире

DRL вышла за рамки теоретических исследований и перешла к практическим, высокоэффективным применениям в различных отраслях промышленности:

Передовая робототехника: в области искусственного интеллекта в робототехнике DRL позволяет машинам осваивать сложные двигательные навыки, которые трудно запрограммировать. Роботы могут научиться захватывать нестандартные объекты или перемещаться по неровной местности, совершенствуя свои движения в физических движках, таких как NVIDIA Sim. Часто это предполагает обучение на синтетических данных перед внедрением политики в физическое оборудование.
Автономное вождение: Автономные транспортные средства используют DRL для принятия решений в реальном времени в непредсказуемых дорожных ситуациях. В то время как модели обнаружения объектов идентифицируют пешеходов и знаки, алгоритмы DRL используют эту информацию для определения безопасных правил вождения при слиянии полос движения, навигации на перекрестках и контроле скорости, эффективно управляя задержкой вывода, необходимой для обеспечения безопасности.

Видение в качестве государственного наблюдателя

Для многих приложений DRL «состояние» является визуальным. Высокоскоростные модели действуют как глаза агента, преобразуя исходные изображения в структурированные данные, на основе которых может действовать сеть политик. Следующий пример иллюстрирует, как модель YOLO26 служит слоем восприятия для агента, извлекая наблюдения (например, количество препятствий) из окружающей среды.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Отличие DRL от смежных концепций

Полезно отличать Deep Reinforcement Learning от схожих терминов, чтобы понять его уникальное положение в ИИ:

Обучение с подкреплением (RL): Стандартное RL является основополагающим концептом, но обычно опирается на таблицы поиска (такие как Q-таблицы), которые становятся непрактичными для больших пространств состояний. DRL решает эту проблему, используя глубокое обучение для аппроксимации функций, что позволяет ему обрабатывать сложные входы, такие как изображения.
Обучение с подкреплением на основе обратной связи от человека (RLHF): В то время как DRL обычно оптимизирует математически определённую функцию вознаграждения (например, очки в игре), RLHF совершенствует модели, в частности большие языковые модели (LLM), используя субъективные предпочтения человека, чтобы привести поведение ИИ в соответствие с человеческими ценностями. Эта техника была популяризирована такими исследовательскими группами, как OpenAI.
Неконтролируемое обучение: Неконтролируемые методы ищут скрытые закономерности в данных без явной обратной связи. В отличие от этого, DRL ориентировано на цель и управляется сигналом вознаграждения, который активно направляет агент к конкретной цели, как обсуждается в основополагающих текстах Саттона и Барто.

Разработчики, желающие управлять наборами данных, необходимыми для уровней восприятия систем DRL, могут использовать Ultralytics , которая упрощает процессы аннотирования и обучения в облаке . Кроме того, исследователи часто используют стандартизированные среды, такие как Gymnasium, для сравнения своих алгоритмов DRL с установленными базовыми показателями.

Глубокое обучение с подкреплением

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Основной механизм DRL

Применение в реальном мире

Видение в качестве государственного наблюдателя

Отличие DRL от смежных концепций

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics