用語集

マルコフ決定過程(MDP)

マルコフ意思決定過程(MDP)が不確実性の下で意思決定を最適化し、ロボット工学やヘルスケアなどのAIを強力にサポートする仕組みをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

マルコフ決定過程(MDP)は、結果が部分的にランダムで、部分的に決定者の制御下にある状況における意思決定をモデル化するために用いられる数学的枠組みである。強化学習の基礎として、MDPは、特定の目標を達成するために時間をかけて行動を最適化できる知的システムの開発において重要な役割を果たす。このフレームワークは、状態、行動、報酬、遷移によって定義され、これらによって逐次的な意思決定問題をモデル化することができる。

主要コンポーネント

MDPは次のようなコア・コンポーネントで構成されている:

  • 状態(S):これは環境において起こりうるすべての状況を表す。例えば、ロボットのナビゲーションタスクでは、状態はロボットの現在位置を表す。
  • アクション(A):任意の状態においてエージェントが利用可能なアクションの集合。例えば、自動運転車には、加速、ブレーキ、旋回などのアクションがあるかもしれない。
  • 遷移関数(T):これは、特定のアクションが与えられたときに、ある状態から別の状態に遷移する確率を指定する。
  • 報酬(R):特定の状態でアクションを起こした後に受け取る即時のフィードバック。例えば、ゴールに到達したときのプラスのスコアや、衝突したときのマイナスのスコアなどがある。
  • 割引係数(γ):このパラメータは、目先の報酬と比較した将来の報酬の重要性を決定し、短期的利益と長期的利益のバランスをとる。

これらの構成要素により、MDPは動的で不確実な環境における問題をモデル化し、解決するための構造化された方法を提供することができる。

実世界での応用

MDPは、さまざまなAIや機械学習のアプリケーションで広く活用されている:

  • 自律走行車MDPは自動運転車の意思決定をモデル化するために使用され、交通や道路状況の不確実性を考慮することで、安全かつ効率的なナビゲーションを可能にします。ビジョンAIがどのように自律走行車をサポートしているかをご覧ください。
  • ヘルスケアの治療計画ヘルスケアでは、MDPは患者の反応に基づいて医療介入の順序を最適化することで、パーソナライズされた治療戦略の設計に役立ちます。ヘルスケアにおけるAIとその変革的影響について、詳しくはこちらをご覧ください。

AI/MLにおける例

  • ロボットの経路計画:倉庫内を移動するロボットは、MDPを使用して、エネルギー使用量を最小限に抑えながら障害物を回避する最適な経路を決定することができる。Ultralytics HUBは、このようなアプリケーションをサポートするモデルの学習を支援します。
  • 在庫管理:小売企業はMDPを使用して、在庫の発注と保有にかかるコストと在庫切れのリスクとのバランスを取ることにより、在庫補充を最適化しています。AIがどのように小売業の効率を高めているかをご覧ください。

MDPと関連概念との区別

MDPは意思決定の基礎となるものだが、隠れマルコフ・モデル(HMM)のような類似の概念とは異なる。HMMは状態が直接観測できないシーケンス分析に用いられるのに対し、MDPは状態が完全に観測可能であることを前提としている。さらに、MDPは行動と報酬を組み込んでいるため、能動的な意思決定を必要とするアプリケーションに最適である。

MDPはまた、強化学習(RL)の基礎としても機能し、エージェントはMDPとしてモデル化された環境の中で試行錯誤しながら最適な方針を学習する。

ツールとテクノロジー

MDPは、AIのエコシステムにおける様々なツールやライブラリによってサポートされている。例えば PyTorchは、MDPに依存する強化学習アルゴリズムの実装を容易にする。さらに、Ultralytics HUBのようなプラットフォームは、実世界での展開のための機械学習ワークフローのシームレスな統合を可能にする。

結論

マルコフ決定過程(MDP)は、不確実性の下で逐次的な意思決定問題をモデル化し解くためのロバストなフレームワークを提供する。MDPを活用することで、AIシステムはヘルスケアから自律システムまで、様々な領域で望ましい結果を達成するために行動を最適化することができる。強化学習の基礎として、MDPは知的意思決定技術の進歩を牽引し続けている。

すべて読む