マルコフ決定過程(MDP)の基礎を探求しましょう。MDPが強化学習をどのように推進するか、Ultralytics リアルタイムの状態データを提供する仕組みを学びます。
マルコフ決定過程(MDP)は、結果が部分的にランダムであり、部分的に意思決定者の制御下にある状況における意思決定をモデル化するために用いられる数学的枠組みである。これは強化学習(RL)の基本的な設計図であり、AIエージェントが特定の目標を達成するために環境と相互作用する構造化された方法を提供する。 静的なラベル付きデータセットに依存する標準的な教師あり学習とは異なり、MDPは現在の行動が将来の可能性に影響を与える逐次的な意思決定に焦点を当てています。
MDPの動作を理解するには、エージェントとその環境との相互作用のサイクルとして視覚化すると役立つ。このサイクルは5つの主要な構成要素によって定義される:
MDPは多くの先端技術の背後にある意思決定エンジンとして機能し、システムが複雑で動的な環境をナビゲートすることを可能にする。
MDPと強化学習は密接に関連しているが、両者を区別することが重要である。MDPは 形式的な問題定義、すなわち環境の数学的モデルである。 強化学習は 内部ダイナミクス(遷移確率)が完全には知られていない場合に、その問題を解決するために用いられる手法である。 Q学習などの強化学習アルゴリズムは、 MDPと相互作用しながら試行錯誤を通じて最適なポリシーを学習する。
現代のAIアプリケーションでは、MDPの「状態」は視覚データから導出されることが多い。高速知覚モデルはシステムの目として機能し、生のカメラ映像をMDPが処理可能な構造化データに変換する。Ultralytics リアルタイムの物体座標を提供でき、これが意思決定エージェントの状態入力として機能する。
以下の例は、Python画像から状態表現(バウンディングボックス)を抽出する方法を示しており、 これをMDPポリシーに投入することが可能です。
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
堅牢な視覚モデルとMDPフレームワークを統合することで、開発者は世界を認識するだけでなく、 その中において知的な適応的判断を行うシステムを構築できる。この相乗効果は自律システムと スマート製造の進展に不可欠である。