用語集

マルコフ決定過程(MDP)

マルコフ決定過程(MDP)と、AI、強化学習、ロボット工学、医療の意思決定におけるその役割についてご紹介します。

マルコフ決定過程(MDP)は、結果が部分的にランダムで、部分的に意思決定者の制御下にある状況における意思決定をモデル化するための数学的枠組みである。これは強化学習(RL)の基礎となる概念であり、環境を記述する正式な方法を提供する。エージェントは、その状態を観察し、行動を選択することによって、この環境と相互作用する。コアとなる考え方はマルコフ特性に基づくもので、マルコフ特性は、未来が現在から与えられた過去から独立していることを仮定している。

マルコフ決定過程の仕組み

MDPは、エージェントとその環境との相互作用を記述するいくつかの重要な要素によって定義される:

  • 状態 (S):エージェントが取り得るすべての状況や構成の集合。例えば、部屋の中のロボットの位置や製品の在庫レベルなど。
  • アクション(A):各状態でエージェントが取り得るすべての動きの集合。ロボットの場合、前進、左移動、右移動など。
  • 遷移確率:特定の行動をとった後に、現在の状態から新しい状態に移行する確率。これは、ロボットの車輪が滑るなど、環境の不確実性を捉える。
  • 報酬関数:新しい状態に移行することの直接的な価値を示す信号。報酬は肯定的または否定的であり、エージェントを望ましい結果へと導く。
  • ポリシー(π):エージェントが各状態で行動を選択するための戦略。MDPを解く最終的な目標は、長期的に期待される報酬の合計を最大化する最適な方針を見つけることである。

エージェントは現在の状態を観察し、ポリシーに基づいて行動を選択し、報酬を受け取り、新しい状態に移る。このループが続くことで、エージェントは経験から学ぶことができる。

実世界での応用

MDPは、さまざまな逐次的意思決定問題をモデル化するのに用いられる。

  1. ロボット工学と自律航法: ロボット工学では、MDPはロボットが複雑な空間をどのようにナビゲートするかをモデル化することができる。状態とはロボットの座標と姿勢であり、行動とはロボットの動き(前進、旋回など)である。報酬は、目的地に到達すれば正の報酬、障害物に衝突したり過剰なエネルギーを使用したりすれば負の報酬となる。知覚システム(多くの場合、物体検出にコンピュータビジョン(CV)を使用)は、MDPに必要な状態情報を提供する。これは自律走行車のようなアプリケーションの基本であり、常に感覚入力に基づいて意思決定を行わなければならない。
  2. 在庫管理とサプライチェーン管理:企業はMDPを使って在庫管理を最適化することができる。状態は現在の在庫レベルであり、アクションはどれだけの製品を再注文するかであり、報酬関数は在庫保有と在庫切れのコストに対する売上利益のバランスをとる。これは、小売業向けAIにおける重要な課題である、不確実な需要下で最適な発注決定を行うのに役立つ。Association for Supply Chain Managementのような主要な組織は、このような高度な最適化手法を模索している。

他の概念との関係

MDPを機械学習(ML)の関連概念と区別することは有益である:

  • 強化学習(RL):RLは、エージェントが最適な意思決定を行えるように訓練することに関係するAIの分野である。MDPは、RLアルゴリズムが解くように設計された問題を正式に定義する数学的枠組みを提供する。環境の遷移と報酬モデルが未知の場合、RL技術は試行錯誤を通じて最適な方針を学習するために使用される。Deep Reinforcement LearningはSuttonやBartoの本のような基礎的なテキストで扱われているように、複雑で高次元の状態空間を扱うために深層学習モデルを使用することによって、これを拡張している。
  • 隠れマルコフ・モデル(HMM):状態が完全に観測可能なMDPとは異なり、隠れマルコフ・モデル(HMM)は、状態が直接見えないが、一連の観測から推測しなければならない場合に使用される。HMMは分析や推論のためのものであり、行動や報酬を含まないため意思決定のためのものではない。
  • 動的計画法:MDPの完全かつ正確なモデル(すなわち、既知の遷移確率と報酬)が利用可能な場合、最適なポリシーを見つけるために、値の反復やポリシーの反復のような動的計画法を使用して解くことができます。

MDPのソリューションを開発するには、GymnasiumのようなRLライブラリやPyTorchや TensorFlowのようなMLフレームワークを使用することが多い。現在の状態を特定するこれらのシステムの知覚コンポーネントは、Ultralytics YOLO11のようなモデルを使用して構築することができる。トレーニングデータの管理からモデルのデプロイまでのワークフロー全体は、Ultralytics HUBのようなプラットフォームを使用して合理化し、堅牢なMLOpsプラクティスで管理することができる。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク