Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Марковский процесс принятия решений (Markov Decision Process, MDP)

Изучите основы марковских процессов принятия решений (MDP). Узнайте, как MDP стимулируют обучение с подкреплением и как Ultralytics предоставляет данные о состоянии в режиме реального времени.

Марковский процесс принятия решений (MDP) — это математическая модель, используемая для моделирования принятия решений в ситуациях, когда результаты частично случайны, а частично находятся под контролем лица, принимающего решение. Это фундаментальная основа для обучения с подкреплением (RL), предоставляющая структурированный способ взаимодействия агента ИИ с окружающей средой для достижения конкретной цели. В отличие от стандартного обучения с учителем, которое опирается на статические помеченные наборы данных, MDP фокусируется на последовательном принятии решений, где текущие действия влияют на будущие возможности.

Основные компоненты MDP

Чтобы понять, как работает MDP, полезно представить его в виде цикла взаимодействия между агентом и его окружением. Этот цикл определяется пятью ключевыми компонентами:

  • Состояние: текущая ситуация или конфигурация окружающей среды. В автономных транспортных средствах состояние может включать скорость автомобиля, его местоположение и близлежащие препятствия, обнаруженные датчиками компьютерного зрения (CV).
  • Действие: набор всех возможных ходов или выборов, доступных агенту. Часто это называют пространством действий, которое может быть дискретным (например, движение влево, движение вправо) или непрерывным (например, регулировка угла поворота руля).
  • Вероятность перехода: определяет вероятность перехода из одного состояния в другое после выполнения определенного действия. Она учитывает неопределенность и динамику реального мира, отличая MDP от детерминированных систем.
  • Вознаграждение: числовой сигнал, получаемый после каждого действия. Функция вознаграждения имеет решающее значение, поскольку она определяет поведение агента — положительные вознаграждения поощряют желательные действия, а отрицательные вознаграждения (штрафы) препятствуют ошибкам.
  • Коэффициент дисконтирования: значение, определяющее важность будущих вознаграждений по сравнению с немедленными. Он помогает агенту отдавать приоритет долгосрочному планированию над краткосрочным удовлетворением, что является центральной концепцией стратегической оптимизации.

Применение в реальном мире

MDP действуют как механизм принятия решений, лежащий в основе многих передовых технологий, позволяя системам ориентироваться в сложных, динамичных средах.

  • Управление робототехникой: в искусственном интеллекте в робототехнике MDP позволяют машинам обучаться сложным двигательным навыкам. Например, роботизированная рука использует MDP для определения оптимального пути для захвата объекта, избегая столкновений. Состояние — это углы сочленений и положение объекта, полученные в результате 3D-обнаружения объекта, а вознаграждение основано на скорости успешного захвата.
  • Управление запасами: Розничные продавцы используют MDP для оптимизации запасов. Здесь состояние представляет собой текущие уровни запасов, действия — это решения о повторном заказе, а вознаграждение рассчитывается на основе прибыли за вычетом затрат на хранение и дефицит товара.
  • Лечение: В персонализированной медицине MDP помогают разрабатывать динамические планы лечения. Моделируя показатели здоровья пациента как состояния и лекарства как действия, врачи могут использовать прогнозное моделирование для максимального улучшения долгосрочных результатов лечения пациента.

Связь с обучением с подкреплением

Несмотря на тесную взаимосвязь, важно различать MDP и обучение с подкреплением. MDP — это формальное постановка задачи— математическая модель среды. Обучение с подкреплением — это метод, используемый для решения этой задачи, когда внутренняя динамика (вероятности перехода) не полностью известна. Алгоритмы RL, такие как Q-обучение, взаимодействуют с MDP, чтобы научиться оптимальной политике методом проб и ошибок.

Визуальное наблюдение в MDP

В современных приложениях искусственного интеллекта «состояние» MDP часто выводится из визуальных данных. Высокоскоростные модели восприятия действуют как глаза системы, преобразуя необработанные данные с камер в структурированные данные, которые может обрабатывать MDP. Например , Ultralytics может предоставлять координаты объектов в реальном времени , которые служат входными данными о состоянии для агента, принимающего решения.

Следующий пример демонстрирует, как извлечь представление состояния (ограничительные рамки) из изображения с помощью Python, которое затем может быть введено в политику MDP.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

Благодаря интеграции надежных моделей машинного зрения с MDP-фреймворками разработчики могут создавать системы, которые не только воспринимают окружающий мир, но и принимают в нем интеллектуальные адаптивные решения. Эта синергия имеет решающее значение для развития автономных систем и интеллектуального производства.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас