用語集

マルコフ決定過程(MDP)

マルコフ決定過程(MDP)と、AI、強化学習、ロボット工学、医療の意思決定におけるその役割についてご紹介します。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

マルコフ決定過程(MDP)は、意思決定者(しばしばエージェントと呼ばれる)によって、結果が部分的にランダムで部分的に制御可能なシナリオにおける意思決定をモデル化するための数学的枠組みを提供する。MDPは人工知能(AI)の基礎となる概念であり、特に強化学習(RL)の分野では基本となる。MDPは、エージェントが時間とともに環境と相互作用しながら、試行錯誤を通じて最適な行動を学習することを可能にする。

MDPのコア・コンポーネント

MDPは通常、いくつかの重要な要素によって定義される:

  • 状態 (S):エージェントが取り得る状況や構成の集合。例えば、部屋の中のロボットの位置や製品の在庫レベルなど。
  • アクション(A):各状態でエージェントが利用できる選択肢の集合。例えば、ロボットが移動できる方向や注文する製品の数量など。
  • 遷移確率(P):特定の行動をとった後に、ある状態から別の状態に移る確率。これは環境の不確実性を反映する。例えば、前進しようとすると90%の確率で成功するが、10%の確率で失敗する(その場にとどまるか、障害物にぶつかる)。
  • 報酬(R):エージェントが行動によってある状態から別の状態に遷移した後に受け取る数値信号。報酬は、遷移の即時的な望ましさを示す。目標は通常、時間の経過とともに累積報酬を最大化することである。
  • ポリシー(π):エージェントの戦略で、各状態でどの行動を選択するかを決める。MDPを解く目的は、通常、長期的な期待報酬を最大化する最適な方針を見つけることである。ディープ強化学習の技術は、複雑な環境においてこのような方針を見つけるためによく使われる。

マルコフ特性

MDPの特徴として、マルコフ特性がある。この仮定は、将来の状態と報酬は現在の状態と取った行動のみに依存し、現在の状態に至った一連の状態と行動には依存しないというものである。要するに、現在の状態には、将来の最適な決定を行うための、過去からのすべての関連情報が含まれている。これにより、モデリングプロセスが大幅に簡素化される。詳細はウィキペディアのマルコフ特性のページにある。

実世界での応用

MDPは、現実世界の多くの逐次決定問題を解くための理論的基礎を提供する:

  • ロボット工学ナビゲーションロボットが障害物を避けながら目的地に到達するための移動方法を決定すること。状態とはロボットが取り得る位置と向き、行動とは移動命令(前進、旋回)、遷移とは移動が成功する確率、報酬とはゴールに到達した場合はプラス、衝突や時間がかかった場合はマイナスとなる。これは自律走行車のような複雑なシステムにも適用できる。
  • 在庫管理:不確実な需要を持つ製品に対する最適な発注方針を決定する。状態は在庫レベルを表し、アクションは注文量であり、遷移は確率的な顧客需要に依存し、報酬は注文および保有コストに対する売上高のバランスをとる。これは、よりスマートな小売在庫管理のためのAIのようなアプリケーションにとって極めて重要である。オペレーションズ・リサーチでは、MDPを探求する学術的な研究を見つけることができる。
  • ゲームプレイ:AIエージェントはチェスや囲碁のようなゲームのプレイを学習し、状態は碁盤の構成であり、行動は合法的な手であり、ゲームに勝つと報酬が与えられる。AlphaGoにおけるDeepMindの研究は、このような領域におけるRLの力を示している。

AIと機械学習における関連性

MDPはほとんどの強化学習タスクの問題構造を形式化したものである。教師あり学習(ラベル付けされたデータからの学習)や教師なし学習(パターンの発見)とは異なり、RLは長期的な目標を達成するための相互作用とフィードバック(報酬)を通じた学習に重点を置いており、MDPは自然なフレームワークとなっている。このパラダイムは、動的な環境において一連の決定を行う必要があるエージェントを訓練するのに不可欠であり、コンピュータビジョン(CV)のような、能動的な知覚やインタラクションを必要とするタスクの分野でますます関連性が高まっている。この機械学習(ML)分野での全体的な目標は、報酬信号を介して長期的な精度やタスクの成功を最適化することです。

他の概念との関係

MDPは隠れマルコフモデル(HMM)のようなシーケンスモデルに関連するが、HMMが一般的にエージェントが行動を制御することなく確率に基づいて状態遷移が起こるシステムをモデル化するのに対し、MDPは遷移に影響を与え報酬を最大化するためにエージェントが能動的に行動を選択することを含むため、区別される。MDPを解くには、(モデルが完全に既知の場合は)動的計画法、モデルが未知の場合はQ学習や政策勾配法のようなRLアルゴリズムのようなテクニックが必要になることが多い。これらの手法は、ある状態の値と後続の状態の値を関連付けるために、ベルマン方程式に依存することが多い。OpenAI Gym(現在はGymnasium)のようなツールは、RLエージェントの開発とテストのための環境を提供する。 PyTorch.このような複雑なモデルのトレーニングとモデルのデプロイメントを管理するには、Ultralytics HUBのようなプラットフォームが役立ちます。 Ultralytics YOLO.包括的な理解については、Sutton & BartoのRL本などのリソースを参照してください。

すべて読む