マルコフ決定過程(MDP)と、AI、強化学習、ロボット工学、医療の意思決定におけるその役割についてご紹介します。
マルコフ決定過程(MDP)は、意思決定者(しばしばエージェントと呼ばれる)によって、結果が部分的にランダムで部分的に制御可能なシナリオにおける意思決定をモデル化するための数学的枠組みを提供する。MDPは人工知能(AI)の基礎となる概念であり、特に強化学習(RL)の分野では基本となる。MDPは、エージェントが時間とともに環境と相互作用しながら、試行錯誤を通じて最適な行動を学習することを可能にする。
MDPは通常、いくつかの重要な要素によって定義される:
MDPの特徴として、マルコフ特性がある。この仮定は、将来の状態と報酬は現在の状態と取った行動のみに依存し、現在の状態に至った一連の状態と行動には依存しないというものである。要するに、現在の状態には、将来の最適な決定を行うための、過去からのすべての関連情報が含まれている。これにより、モデリングプロセスが大幅に簡素化される。詳細はウィキペディアのマルコフ特性のページにある。
MDPは、現実世界の多くの逐次決定問題を解くための理論的基礎を提供する:
MDPはほとんどの強化学習タスクの問題構造を形式化したものである。教師あり学習(ラベル付けされたデータからの学習)や教師なし学習(パターンの発見)とは異なり、RLは長期的な目標を達成するための相互作用とフィードバック(報酬)を通じた学習に重点を置いており、MDPは自然なフレームワークとなっている。このパラダイムは、動的な環境において一連の決定を行う必要があるエージェントを訓練するのに不可欠であり、コンピュータビジョン(CV)のような、能動的な知覚やインタラクションを必要とするタスクの分野でますます関連性が高まっている。この機械学習(ML)分野での全体的な目標は、報酬信号を介して長期的な精度やタスクの成功を最適化することです。
MDPは隠れマルコフモデル(HMM)のようなシーケンスモデルに関連するが、HMMが一般的にエージェントが行動を制御することなく確率に基づいて状態遷移が起こるシステムをモデル化するのに対し、MDPは遷移に影響を与え報酬を最大化するためにエージェントが能動的に行動を選択することを含むため、区別される。MDPを解くには、(モデルが完全に既知の場合は)動的計画法、モデルが未知の場合はQ学習や政策勾配法のようなRLアルゴリズムのようなテクニックが必要になることが多い。これらの手法は、ある状態の値と後続の状態の値を関連付けるために、ベルマン方程式に依存することが多い。OpenAI Gym(現在はGymnasium)のようなツールは、RLエージェントの開発とテストのための環境を提供する。 PyTorch.このような複雑なモデルのトレーニングとモデルのデプロイメントを管理するには、Ultralytics HUBのようなプラットフォームが役立ちます。 Ultralytics YOLO.包括的な理解については、Sutton & BartoのRL本などのリソースを参照してください。