Глоссарий

Обучение с подкреплением

Открой для себя обучение с подкреплением, в котором агенты оптимизируют действия методом проб и ошибок для получения максимального вознаграждения. Изучи концепции, приложения и преимущества!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Обучение с подкреплением - это подобласть машинного обучения, в которой агент учится принимать решения, взаимодействуя с окружающей средой. В отличие от контролируемого обучения, которое опирается на маркированные данные, обучение с подкреплением предполагает обучение методом проб и ошибок, чтобы максимизировать сигнал вознаграждения. Этот подход вдохновлен поведенческой психологией, где положительное подкрепление поощряет желаемое поведение. Основная идея заключается в том, что агент совершает действия в окружающей среде и в ответ получает обратную связь в виде вознаграждений или наказаний. Со временем агент учится оптимизировать свои действия, чтобы накопить максимально возможное вознаграждение.

Основные понятия обучения с подкреплением

В основе обучения с подкреплением лежат несколько ключевых компонентов. Агент - это обучаемый и принимающий решения. Окружение - это мир, с которым агент взаимодействует. Агент совершает действия в этой среде, и каждое действие приводит к новому состоянию среды и награде. Цель агента - выучить политику, которая представляет собой стратегию, диктующую наилучшее действие, которое следует предпринять в любом заданном состоянии, чтобы максимизировать совокупное вознаграждение с течением времени. Этот процесс обучения часто включает в себя исследование окружающей среды для обнаружения новых стратегий и использование известных стратегий для получения вознаграждения.

Обучение с подкреплением особенно полезно в сценариях, где нет легкодоступных меченых данных, но есть четкая цель, которую можно определить с помощью системы вознаграждения. Оно отличается от контролируемого обучения, где целью является сопоставление входов и выходов на основе помеченных примеров, и от неконтролируемого обучения, где целью является поиск закономерностей в немаркированных данных. Вместо этого обучение с подкреплением фокусируется на обучении оптимальному поведению в среде для достижения цели.

Области применения обучения с подкреплением

Обучение с подкреплением имеет широкий спектр применения в различных отраслях. Одна из самых заметных областей - робототехника. Например, обучение с подкреплением можно использовать для обучения роботов сложным задачам, таким как манипулирование объектами, навигация в незнакомой среде и даже сложные операции на сборочной линии. Определив функцию вознаграждения, которая поощряет робота за достижение целей и наказывает за нежелательные действия, роботы могут научиться сложному поведению без явного программирования. Ultralytics Моделиобнаружения объектов, такие как Ultralytics YOLOv8 могут быть интегрированы в роботизированные системы для расширения их возможностей восприятия, позволяя более эффективно взаимодействовать с динамичным окружением.

Еще одно значимое применение - в играх. AlphaGo от DeepMind, победивший чемпиона мира по игре в го, - известный пример обучения с подкреплением в действии. Игровые среды обеспечивают четко определенные правила и ясную структуру вознаграждения, что делает их идеальными для разработки и тестирования алгоритмов обучения с подкреплением. Эти алгоритмы могут научиться осваивать сложные игры, часто превосходя производительность на уровне человека.

Помимо робототехники и игр, обучение с подкреплением также применяется в таких областях, как управление ресурсами, например оптимизация энергопотребления в дата-центрах, и в системах персонализированных рекомендаций. Поскольку ИИ продолжает развиваться, обучение с подкреплением будет играть все более важную роль в создании интеллектуальных систем, способных обучаться и адаптироваться в сложных и динамичных средах. Чтобы глубже изучить области применения ИИ и машинного обучения, посетите такие мероприятияUltralytics , как YOLO Vision, на которых демонстрируются последние достижения в этой области. Для более глубокого погружения в смежные темы тебе также может пригодиться глоссарийUltralytics .

Читать полностью