Откройте для себя обучение с подкреплением, в котором агенты оптимизируют действия путем проб и ошибок для получения максимального вознаграждения. Изучите концепции, приложения и преимущества!
Обучение с подкреплением (RL) - это область машинного обучения (ML), в которой интеллектуальный агент учится принимать оптимальные решения методом проб и ошибок. В отличие от других парадигм обучения, агенту не указывают, какие действия ему следует предпринять. Вместо этого он взаимодействует с окружающей средой и получает обратную связь в виде поощрений или наказаний. Основная цель агента - выработать стратегию, известную как политика, которая максимизирует его совокупное вознаграждение с течением времени. Этот подход вдохновлен поведенческой психологией и особенно эффективен для решения последовательных задач принятия решений, как описано в основополагающем тексте Саттона и Барто.
Процесс RL моделируется как непрерывный цикл обратной связи, включающий несколько ключевых компонентов:
Агент наблюдает за текущим состоянием среды, выполняет действие и получает вознаграждение вместе со следующим состоянием. Этот цикл повторяется, и благодаря этому опыту агент постепенно совершенствует свою политику, отдавая предпочтение действиям, которые приводят к более высоким долгосрочным вознаграждениям. Формальные рамки этой задачи часто описываются марковским процессом принятия решений (MDP). К популярным алгоритмам RL относятся Q-learning и Policy Gradients.
RL отличается от других основных типов машинного обучения:
RL добилась значительных успехов в самых разных сложных областях:
Обучение с подкреплением - важнейший компонент широкого ландшафта искусственного интеллекта (ИИ), особенно для создания автономных систем. Хотя такие компании, как Ultralytics, специализируются на моделях ИИ для зрения, таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров с помощью контролируемого обучения, возможности восприятия этих моделей являются важными исходными данными для агентов RL.
Например, робот может использовать модель YOLO для восприятия, развернутую через Ultralytics HUB, чтобы понять свое окружение ("состояние"). Затем политика RL использует эту информацию для принятия решения о своем следующем шаге. Эта синергия между компьютерным зрением (CV) для восприятия и RL для принятия решений является основополагающей для создания интеллектуальных систем. Эти системы часто разрабатываются с использованием таких фреймворков, как PyTorch и TensorFlow, и часто тестируются в стандартизированных средах моделирования, таких как Gymnasium (бывший OpenAI Gym). Для улучшения соответствия модели предпочтениям человека все большее значение в этой области приобретают такие методы, как обучение с подкреплением на основе человеческой обратной связи (RLHF). Прогресс в области RL постоянно стимулируется такими организациями, как DeepMind, и научными конференциями, такими как NeurIPS.