Yolo 深圳
深セン
今すぐ参加
用語集

マルコフ決定過程(MDP)

マルコフ決定過程(MDP)の基礎を探求しましょう。MDPが強化学習をどのように推進するか、Ultralytics リアルタイムの状態データを提供する仕組みを学びます。

マルコフ決定過程(MDP)は、結果が部分的にランダムであり、部分的に意思決定者の制御下にある状況における意思決定をモデル化するために用いられる数学的枠組みである。これは強化学習(RL)の基本的な設計図であり、AIエージェントが特定の目標を達成するために環境と相互作用する構造化された方法を提供する。 静的なラベル付きデータセットに依存する標準的な教師あり学習とは異なり、MDPは現在の行動が将来の可能性に影響を与える逐次的な意思決定に焦点を当てています。

MDPのコア・コンポーネント

MDPの動作を理解するには、エージェントとその環境との相互作用のサイクルとして視覚化すると役立つ。このサイクルは5つの主要な構成要素によって定義される:

  • 状態:環境の現在の状況または構成。 自律走行車においては、状態には 車両の速度、位置、およびコンピュータービジョン(CV)センサーによって検出された 近傍の障害物などが含まれる。
  • アクション:エージェントが利用可能なすべての可能な移動または選択の集合。これはしばしば アクション空間と呼ばれ、離散的(例:左移動、右移動)または連続的(例:ステアリング角度の調整) である場合がある。
  • 遷移確率:これは特定の行動を取った後に一つの状態から別の状態へ移行する可能性を定義する。 現実世界の不確実性と動的性質を考慮し、MDPを決定論的システムと区別する。
  • 報酬:各行動後に受け取る数値信号。 報酬関数はエージェントの行動を導くため極めて重要である—— 正の報酬は望ましい行動を促進し、負の報酬(ペナルティ)は 誤りを抑制する。
  • 割引率:将来の報酬と即時報酬の重要性を決定する値。 エージェントが短期的な満足よりも長期的な計画を優先するのを助け、 戦略的最適化の核心となる概念である。

実際のアプリケーション

MDPは多くの先端技術の背後にある意思決定エンジンとして機能し、システムが複雑で動的な環境をナビゲートすることを可能にする。

  • ロボティクス制御: ロボティクスにおけるAIでは、MDP(マルコフ決定過程)が機械に複雑な運動技能を学習させることを可能にする。例えば、ロボットアームはMDPを用いて、衝突を回避しながら物体を把持するための最適経路を決定する。状態は関節角度と物体位置(3D物体検出から導出)であり、報酬は把持成功速度に基づく。
  • 在庫管理:小売業者は在庫最適化のためにMDPを利用する。ここで状態は現在の在庫レベルを表し、行動は再発注決定であり、報酬は利益率から保管コストと品切れコストを差し引いて計算される。
  • 医療治療:個別化医療において、MDPは動的な治療計画の設計を支援します。患者の健康指標を状態として、薬剤を行動としてモデル化することで、医師は予測モデリングを活用し、患者の長期的な健康成果を最大化できます。

強化学習との関係

MDPと強化学習は密接に関連しているが、両者を区別することが重要である。MDPは 形式的な問題定義、すなわち環境の数学的モデルである。 強化学習は 内部ダイナミクス(遷移確率)が完全には知られていない場合に、その問題を解決するために用いられる手法である Q学習などの強化学習アルゴリズムは、 MDPと相互作用しながら試行錯誤を通じて最適なポリシーを学習する。

MDPにおける視覚的観察

現代のAIアプリケーションでは、MDPの「状態」は視覚データから導出されることが多い。高速知覚モデルはシステムの目として機能し、生のカメラ映像をMDPが処理可能な構造化データに変換する。Ultralytics リアルタイムの物体座標を提供でき、これが意思決定エージェントの状態入力として機能する。

以下の例は、Python画像から状態表現(バウンディングボックス)を抽出する方法を示しており、 これをMDPポリシーに投入することが可能です。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

堅牢な視覚モデルとMDPフレームワークを統合することで、開発者は世界を認識するだけでなく、 その中において知的な適応的判断を行うシステムを構築できる。この相乗効果は自律システムと スマート製造の進展に不可欠である。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加