Глоссарий

Марковский процесс принятия решений (МПП)

Узнай о марковских процессах принятия решений (МПП) и их роли в ИИ, обучении с подкреплением, робототехнике и принятии решений в здравоохранении.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Марковский процесс принятия решений (МПП) представляет собой математическую основу для моделирования принятия решений в сценариях, где результаты частично случайны, а частично контролируются лицом, принимающим решение, которое часто называют агентом. Это краеугольная концепция в искусственном интеллекте (ИИ), особенно фундаментальная для области обучения с подкреплением (RL). MDP позволяют агентам учиться оптимальному поведению методом проб и ошибок, взаимодействуя с окружающей средой с течением времени.

Основные компоненты MDP

MDP обычно определяется несколькими ключевыми компонентами:

  • Состояния (S): Набор возможных ситуаций или конфигураций, в которых может находиться агент. Например, расположение робота в комнате или уровень запасов продукта.
  • Действия (A): Набор вариантов действий, доступных агенту в каждом состоянии. Например, направления, в которых может двигаться робот, или количество товара, которое нужно заказать.
  • Вероятности перехода (P): вероятность перехода из одного состояния в другое после выполнения определенного действия. Это отражает неопределенность окружающей среды. Например, попытка двигаться вперед может быть успешной в 90 % случаев, но провальной в 10 % (остаться на месте или наехать на препятствие).
  • Вознаграждение (R): числовой сигнал, получаемый агентом после перехода из одного состояния в другое в результате какого-либо действия. Вознаграждение указывает на непосредственную желательность перехода. Обычно цель состоит в том, чтобы максимизировать кумулятивное вознаграждение с течением времени.
  • Политика (π): Стратегия агента, которая диктует, какое действие выбрать в каждом состоянии. Целью решения MDP обычно является поиск оптимальной политики, которая максимизирует ожидаемое долгосрочное вознаграждение. Для поиска таких политик в сложных средах часто используются техники из Deep Reinforcement Learning.

Свойство Маркова

Определяющей характеристикой MDP является свойство Маркова. Это предположение гласит, что будущее состояние и вознаграждение зависят только от текущего состояния и предпринятого действия, а не от последовательности состояний и действий, которые привели к текущему состоянию. По сути, текущее состояние содержит всю релевантную информацию из прошлого для принятия оптимального решения на будущее. Это значительно упрощает процесс моделирования. Более подробную информацию можно найти на странице "Свойства Маркова" в Википедии.

Применение в реальном мире

MDP обеспечивают теоретическую основу для решения многих реальных задач последовательного принятия решений:

  • Навигация в робототехнике: Робот решает, как двигаться, чтобы достичь цели, избегая при этом препятствий. Состояния - это возможные местоположения и ориентации робота, действия - это команды движения (вперед, поворот), переходы - это вероятности успешного движения, а вознаграждение может быть положительным за достижение цели и отрицательным за столкновения или потраченное время. Это распространяется и на сложные системы вроде автономных транспортных средств.
  • Управление запасами: Определение оптимальной политики заказа для продуктов с неопределенным спросом. Состояния представляют собой уровни запасов, действия - количество заказов, переходы зависят от стохастического покупательского спроса, а вознаграждения уравновешивают доход от продаж с затратами на заказ и хранение. Это очень важно для таких приложений, как ИИ для более разумного управления запасами в розничной торговле. Академические работы, посвященные изучению MDP, ты можешь найти в журнале Operations Research.
  • Игра в игры: ИИ-агенты учатся играть в такие игры, как шахматы или го, где состояние - это конфигурация доски, действия - это законные ходы, а за победу в игре дается награда. Работа DeepMind над AlphaGo демонстрирует мощь RL в таких доменах.

Актуальность в области искусственного интеллекта и машинного обучения

MDP формализуют структуру задачи для большинства задач Reinforcement Learning. В отличие от Supervised Learning (обучение на основе помеченных данных) или Unsupervised Learning (поиск закономерностей), RL фокусируется на обучении через взаимодействие и обратную связь (вознаграждение) для достижения долгосрочной цели, что делает MDP естественной структурой. Эта парадигма жизненно важна для обучения агентов, которым необходимо принимать последовательности решений в динамичных средах, что становится все более актуальным в таких областях, как компьютерное зрение (CV), для задач, требующих активного восприятия или взаимодействия. Общая цель в этой ветви машинного обучения (ML) часто заключается в оптимизации для долгосрочной точности или успеха задачи через сигнал вознаграждения.

Взаимосвязь с другими концепциями

Хотя они и связаны с такими моделями последовательности, как скрытые марковские модели (HMM), MDP отличаются от них тем, что в них агент активно выбирает действия, чтобы повлиять на переходы и максимизировать вознаграждение, тогда как HMM обычно моделируют системы, в которых переходы состояний происходят на основе вероятностей без контроля агента над действиями. Решение MDP часто включает в себя такие методы, как динамическое программирование (если модель полностью известна) или алгоритмы RL, такие как Q-learning и градиентные методы политики, когда модель неизвестна. Эти методы часто опираются на уравнение Беллмана, чтобы связать значение состояния со значениями последующих состояний. Такие инструменты, как OpenAI Gym (сейчас Gymnasium), предоставляют среду для разработки и тестирования RL-агентов, часто реализованных с помощью таких фреймворков, как PyTorch. Управление обучением и развертыванием таких сложных моделей может быть облегчено такими платформами, как Ultralytics HUB, которая поддерживает различные рабочие процессы ИИ, включая те, в которых задействованы самые современные модели, такие как Ultralytics YOLO. Чтобы получить исчерпывающее представление, обратись к таким ресурсам, как книга RL Саттона и Барто.

Читать полностью