Глоссарий

Обучение с подкреплением

Изучи Reinforcement Learning: Преобразуй ИИ с автономным принятием решений, используя концепции RL и их применение в робототехнике, играх и промышленности.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Reinforcement Learning (RL) - это подполе машинного обучения, в котором агент учится принимать решения, выполняя действия в окружающей среде для достижения определенных целей. В отличие от контролируемого обучения, где модель обучается на основе помеченного набора данных, обучение с подкреплением опирается на систему поощрений и наказаний, чтобы направить агента к оптимальному поведению.

Как работает обучение с подкреплением

В обучении с подкреплением агент взаимодействует с окружающей средой за дискретные временные шаги. На каждом шаге агент получает обратную связь в виде награды, которая представляет собой числовое значение. Цель состоит в том, чтобы максимизировать кумулятивное вознаграждение с течением времени. Агент выбирает действия, основываясь на политике, которая может быть детерминированной или стохастической. Со временем политика совершенствуется, так как агент учится на последствиях своих действий.

Основные элементы системы RL включают в себя:

  • Агент: Ученик или лицо, принимающее решение.
  • Окружающая среда: Все, с чем взаимодействует агент.
  • Действия: Все возможные ходы, которые может сделать агент.
  • Вознаграждения: Обратная связь от окружения для оценки действий.
  • Состояние: Представление о текущей ситуации с окружением.
  • Политика: Стратегия, которую агент использует для определения действий, основываясь на текущем состоянии.

Важные концепции RL

  • Функция ценности: Оценивает ожидаемое кумулятивное вознаграждение от заданного состояния или пары "состояние-действие".
  • Q-Learning: Популярный алгоритм RL, в котором агент узнает значение действий напрямую.
  • Исследование против эксплуатации: Балансируй между необходимостью исследовать новые стратегии и эксплуатировать известные успешные.
  • Темпоральное разностное обучение: Объединяет идеи методов Монте-Карло и динамического программирования.

Отличие RL от родственных терминов

Обучение с подкреплением отличается от контролируемого обучения, где модель учится на парах "вход-выход". Вместо этого RL делает акцент на обучении на основе взаимодействия с окружающей средой. Оно также отличается от неконтролируемого обучения, так как для обратной связи по вознаграждению нет явных меток.

Области применения обучения с подкреплением

Самоуправляемые автомобили

Обучение с подкреплением играет важнейшую роль в разработке ИИ для самоуправляемых автомобилей. Алгоритмы RL помогают этим автомобилям изучать оптимальные стратегии вождения в симулированных условиях перед физическими испытаниями.

Робототехника

RL позволяет роботам обучаться сложным задачам методом проб и ошибок. Например, роботы на складах могут научиться обращаться с различными предметами с помощью обучения с подкреплением, повышая эффективность и точность.

Игра в игры

Известно, что RL применяется в играх, где агенты учатся играть и овладевают такими играми, как го и шахматы, что продемонстрировал AlphaGo от DeepMind.

RL в бизнесе и промышленности

Reinforcement learning может оптимизировать такие операции, как управление запасами и логистика. На сайте Ultralytics, системы на основе RL помогают принимать решения на основе данных, чтобы повысить эффективность и рентабельность цепочек поставок.

Ресурсы для дальнейшего изучения

Обучение с подкреплением выделяется как надежный метод разработки интеллектуальных систем, способных автономно принимать решения, что делает его краеугольным камнем достижений в области искусственного интеллекта и машинного обучения.

Читать полностью