Изучите основы марковских процессов принятия решений (MDP). Узнайте, как MDP стимулируют обучение с подкреплением и как Ultralytics предоставляет данные о состоянии в режиме реального времени.
Марковский процесс принятия решений (MDP) — это математическая модель, используемая для моделирования принятия решений в ситуациях, когда результаты частично случайны, а частично находятся под контролем лица, принимающего решение. Это фундаментальная основа для обучения с подкреплением (RL), предоставляющая структурированный способ взаимодействия агента ИИ с окружающей средой для достижения конкретной цели. В отличие от стандартного обучения с учителем, которое опирается на статические помеченные наборы данных, MDP фокусируется на последовательном принятии решений, где текущие действия влияют на будущие возможности.
Чтобы понять, как работает MDP, полезно представить его в виде цикла взаимодействия между агентом и его окружением. Этот цикл определяется пятью ключевыми компонентами:
MDP действуют как механизм принятия решений, лежащий в основе многих передовых технологий, позволяя системам ориентироваться в сложных, динамичных средах.
Несмотря на тесную взаимосвязь, важно различать MDP и обучение с подкреплением. MDP — это формальное постановка задачи— математическая модель среды. Обучение с подкреплением — это метод, используемый для решения этой задачи, когда внутренняя динамика (вероятности перехода) не полностью известна. Алгоритмы RL, такие как Q-обучение, взаимодействуют с MDP, чтобы научиться оптимальной политике методом проб и ошибок.
В современных приложениях искусственного интеллекта «состояние» MDP часто выводится из визуальных данных. Высокоскоростные модели восприятия действуют как глаза системы, преобразуя необработанные данные с камер в структурированные данные, которые может обрабатывать MDP. Например , Ultralytics может предоставлять координаты объектов в реальном времени , которые служат входными данными о состоянии для агента, принимающего решения.
Следующий пример демонстрирует, как извлечь представление состояния (ограничительные рамки) из изображения с помощью Python, которое затем может быть введено в политику MDP.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
Благодаря интеграции надежных моделей машинного зрения с MDP-фреймворками разработчики могут создавать системы, которые не только воспринимают окружающий мир, но и принимают в нем интеллектуальные адаптивные решения. Эта синергия имеет решающее значение для развития автономных систем и интеллектуального производства.