用語集

マルコフ決定過程(MDP)

マルコフ決定過程(MDP)と、AI、強化学習、ロボット工学、医療の意思決定におけるその役割についてご紹介します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

マルコフ決定過程(MDP)は、結果が部分的にランダムで、部分的にエージェントと呼ばれる意思決定者の制御下にある状況での意思決定をモデル化するために使用される数学的枠組みである。特に強化学習(RL)の分野では、人工知能(AI)の基礎となる概念である。MDPは、エージェントが時間をかけて環境と相互作用し、特定の目標を達成するために一連の決定を行うことを学習する問題を記述するための正式な方法を提供する。このフレームワークは、エージェントが複雑で不確実な環境において、どのように最適な行動を学習するかを理解するために不可欠である。

MDPの主な構成要素

MDPは通常、いくつかの重要な要素によって定義される:

  • 状態 (S):エージェントが取り得る状況や構成の集合。例えば、ロボットのナビゲーションタスクでは、状態はグリッド内のロボットの位置を表す。
  • アクション(A):各状態でエージェントが利用できる選択肢のセット。利用可能な具体的なアクションは、現在の状態に依存するかもしれない。ロボットの場合、アクションは「北へ移動」、「南へ移動」、「東へ移動」、「西へ移動」となる。
  • 遷移確率 (P):特定の行動(a)をとった後に、ある状態(s)から別の状態(s')に移行する確率を定義する。これは環境の不確実性をとらえるもので、ある行動が必ずしも意図した結果につながるとは限らない。例えば、北に移動しようとするロボットは、滑って同じ場所に留まったり、コースを少し外れたりする可能性がある。
  • 報酬(R):行動(a)によって状態(s)から状態(s')に遷移した後にエージェントが受け取る数値。報酬は、特定の遷移や状態がどの程度良いか悪いかを示す。目標は通常、時間の経過とともに累積される報酬の合計を最大化することである。目標地点に到達すると大きな正の報酬が得られ、障害物にぶつかると負の報酬が得られるかもしれない。
  • 割引係数(γ):0から1の間の値で、目先の報酬と比べた将来の報酬の重要性を決定する。割引率が低いほど短期的な利益を優先し、高いほど長期的な成功を重視する。

MDPの重要な側面は マルコフ特性これは、将来の状態と報酬は現在の状態と行動のみに依存し、現在の状態に至る一連の状態と行動には依存しないというものである。

AIと機械学習におけるMDPの仕組み

機械学習(ML)の文脈では、MDPはほとんどの強化学習アルゴリズムの基盤を形成する。MDPの目的は最適な政策(π)を見つけることであり、これはエージェントが期待される累積割引報酬を最大化するために、各状態で取るべき行動を指示する戦略やルールである。

Q-learning、SARSA、政策勾配法などのアルゴリズムは、MDPを解くために設計されており、多くの場合、遷移確率や報酬関数の明示的な知識を必要とせず、代わりに環境との相互作用を通してそれらを学習する。この相互作用のループは、エージェントが現在の状態を観察し、ポリシーに基づいて行動を選択し、報酬を受け取り、環境のダイナミクスに従って新しい状態に遷移することを含む。このプロセスが繰り返されることで、エージェントは徐々にポリシーを洗練させていく。この学習パラダイムは、教師あり学習(ラベル付けされたデータから学習する)や教師なし学習(ラベル付けされていないデータからパターンを見つける)とは大きく異なる。

実世界での応用

MDPとその解法に使われるRL技術は、数多くの実用的な応用がある:

他の概念との関係

MDPを関連概念と区別することは有益である:

  • 強化学習(RL)RLは機械学習の一分野であり、エージェントが試行錯誤を通じてどのように最適な行動を学習するかに関係している。MDPは、RLアルゴリズムが解決しようとする問題を定義する、正式な数学的枠組みを提供する。深層強化学習は、複雑で高次元の状態空間を扱うために、RLと深層学習(DL)を組み合わせたものである。
  • 隠れマルコフ・モデル(HMM)HMMは、モデル化されるシステムが、観測されていない(隠れた)状態を持つマルコフ過程であると仮定される場合に使用される統計モデルである。MDPとは異なり、HMMは観察から隠れた状態を推測することに主眼を置いており、通常、意思決定のための行動や報酬を伴わない。
  • 動的計画法モデル(遷移と報酬)が既知であればMDPを解くことができる価値反復や政策反復のような技法は、動的計画法の原理に基づいている。

MDPに基づくソリューションの開発では、次のようなフレームワークで構築されたRLライブラリを使用することが多い。 PyTorchまたは TensorFlow.実験とモデルのトレーニングの管理には、AIプロジェクトのワークフローを合理化するためのUltralytics HUBのようなプラットフォームが必要かもしれない。効果的なモデル評価は、学習されたポリシーのパフォーマンスを評価するために非常に重要です。

すべて読む