マルコフ決定過程(MDP)は、結果が部分的にランダムで、部分的に意思決定者の制御下にある状況における意思決定をモデル化するための数学的枠組みである。人工知能や機械学習、特に強化学習の分野で重要な概念であり、複雑な逐次決定問題を解くための構造化されたアプローチを提供する。MDPは、エージェントが環境と相互作用し、累積報酬を最大化する行動を選択することを目指す問題を定式化するために用いられる。
定義
マルコフ決定過程(MDP)は、状態の集合、行動の集合、遷移確率、報酬関数によって定義される。形式的には、MDPは離散時間確率制御過程である。MDPは、結果が部分的にランダムで、部分的に意思決定者のコントロール下にある状況における意思決定をモデル化するための数学的枠組みを提供する。ウィキペディアのマルコフ決定過程のページなどで、より詳細な数学的説明を見つけることができる。マルコフ」特性は重要である:将来の状態は、先行する状態や行動の履歴ではなく、現在の状態と行動のみに依存する。この「無記憶」特性は、問題を単純化すると同時に、現実世界の多くのシナリオを捉えることができる。
MDPの主な構成要素
- 状態:エージェントが取り得る状況や設定を表す。例えば、自動運転車のシナリオでは、状態には車の現在地、速度、周囲の交通状況などが含まれる。ロボティック・プロセス・オートメーション(RPA)の文脈では、状態はワークフロープロセスの現在のステージかもしれない。
- 行動:各状態でエージェントができる選択。自動運転車の例を続けると、アクションは加速、減速、左折、右折などが考えられます。チャットボットの場合、アクションはユーザーの入力に対するさまざまな応答かもしれません。
- 遷移確率:状態-アクションのペアごとに、次に起こりうる状態への遷移確率を定義する。MDPには確率性が含まれるため、ある状態でアクションを起こしたからといって特定の結果が保証されるわけではない。
- 報酬関数:これらの関数は、エージェントが新しい状態に遷移した後に受け取る直接的な報酬を定量化する。報酬は正(望ましい)か負(望ましくない、しばしばコストまたはペナルティと呼ばれる)である。例えば、ゲームでは、勝つと大きな正の報酬を得ることができ、負けると負の報酬を得ることができる。モデルのハイパーパラメータ・チューニングでは、報酬は検証集合でのモデルのパフォーマンス指標に関係する。
関連性と応用
MDPは強化学習(RL)の基本であり、その目的は、累積報酬を最大化するために、環境内で最適な決定を行うようにエージェントを訓練することである。Q-learningやSARSAのようなRLアルゴリズムは、MDPの枠組みに基づいて構築されている。MDPは、以下のようなシナリオで特に有用である:
- 意思決定は連続的である:今とった行動が将来の状態や報酬に影響する。
- 不確実性は内在している:行動の結果は常に予測できるとは限らない。
- 目標は報酬によって定義することができる:目標は、成功の累積的な尺度を最大化することである。
MDPの実世界での応用には以下のようなものがある:
- ロボット工学ロボット工学では、MDPはロボットの動作、ナビゲーション、操作タスクを計画するのに使われます。例えば、MDPはロボットが効率的に倉庫内をナビゲートし、障害物を避けて目標地点に到達することを学習するのに役立ちます。
- ヘルスケアMDPは、患者の最適な治療戦略の決定など、臨床上の意思決定をモデル化することができる。患者の状態に基づいて治療計画をパーソナライズし、治療結果を予測することで、医療におけるAIを向上させることができる。例えば、MDPは長期的な投薬量調整の最適化に利用できる。
関連概念
- 強化学習(RL):RLは、エージェントが一連の決定を行うように訓練することに焦点を当てた機械学習のサブ分野である。MDPは多くのRLアルゴリズムの理論的基礎を提供する。RL技術は、遷移確率や報酬関数が未知であったり複雑であったりする場合に、MDPを解くためにしばしば用いられる。