用語集

強化学習

強化学習とは、エージェントが試行錯誤を通じて行動を最適化し、報酬を最大化する学習です。コンセプト、アプリケーション、利点を探る!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

強化学習(RL)は機械学習(ML)の一種であり、知的エージェントがその行動に対して受け取る報酬を最大化しようとすることで、一連の決定を行うことを学習する。ラベル付けされた例から学習する教師あり学習や、ラベル付けされていないデータからパターンを見つける教師なし学習とは異なり、RLは環境との相互作用による試行錯誤を通して学習する。エージェントは、自分がとった行動に基づいて、報酬や罰則という形でフィードバックを受け取り、特定の目標達成に向けて学習プロセスを導く。

コア・コンセプト

強化学習システムは、いくつかの重要なコンポーネントによって定義される:

  • エージェント:環境と相互作用する学習者または意思決定主体。
  • 環境:エージェントが活動する外部システムまたは世界。
  • 状態:エージェントが認識している現在の状況や環境の構成を表す。
  • 行動:エージェントが環境内で行う決定や行動。
  • 報酬:ある行動を行った後に環境から受け取る数値信号で、その行動が特定の状態においてどの程度良かったか悪かったかを示す。エージェントの目的は、通常、時間の経過とともに累積報酬を最大化することである。
  • ポリシー:エージェントが現在の状態に基づいて次の行動を決定するために使用する戦略またはマッピング。これは基本的にエージェントが学習するものである。
  • 価値関数:与えられた状態から、あるいは与えられた状態において特定のポリシーに従って特定の行動をとることによって達成可能な、期待される将来の報酬の予測。
  • マルコフ決定過程(MDP)エージェントと環境の相互作用を定義し、RL問題をモデル化するために一般的に使用される数学的枠組み。

RLにおける基本的な課題は、探索と利用のトレードオフである。エージェントは、より高い報酬が得られる可能性のある行動を発見するために新しい行動を探索すること(探索)と、良い報酬が得られることが分かっている行動を選択すること(利用)のバランスを取らなければならない。

強化学習の仕組み

RLのプロセスは通常反復的である。エージェントは環境の現在の状態を観察し、現在のポリシーに基づいて行動を選択し、行動を実行し、環境から報酬(またはペナルティ)と次の状態を受け取る。このフィードバックはエージェントのポリシーや価値関数を更新するために使用され、時間の経過とともに意思決定が改善される。一般的なRLアルゴリズムには、Q学習、SARSA、ポリシー勾配法などがあり、それぞれポリシーの学習と更新に異なる戦略を採用している。ディープ強化学習(Deep Reinforcement Learning:DRL)は、RLとディープラーニング技術を組み合わせたもので、ニューラルネットワーク(NN)を使用してポリシーや価値関数を近似することで、RLが画像やセンサーデータのような複雑で高次元の状態空間を持つ問題に取り組むことを可能にする。

他の学習パラダイムとの比較

RLは他のMLパラダイムと大きく異なる:

  • 教師あり学習ラベル付けされた例(入力と出力のペア)を含むデータセットから学習する。目標は、新しい入力に対する出力を予測するマッピング関数を学習することである。例としては、画像分類や回帰などがある。RLは、あらかじめ定義された正解ではなく、相互作用とフィードバック(報酬)から学習する。
  • 教師なし学習ラベル付けされていないデータからパターンや構造を学習する。クラスタリングや 次元削減などがその例。RLは目標指向で、報酬を最大化するためのポリシーを学習するのに対し、教師なし学習はデータ構造の発見に焦点を当てる。

実世界での応用

RLはさまざまな領域でブレークスルーを可能にした:

AIエコシステムにおける関連性

強化学習は、特に複雑な意思決定が可能な自律的システムを構築するために、より広範な人工知能(AI)の状況において極めて重要な要素である。Ultralytics ような企業は、以下のようなビジョンAIモデルを専門としている。 Ultralytics YOLOのような視覚AIモデルを専門としているが、これらのモデルによって提供される知覚能力は、しばしばRLエージェントにとって不可欠な入力(状態)である。例えば、ロボットは、RLポリシーが次の動きを決定する前に、Ultralytics HUBを介して配置された物体検出モデルを使用して、周囲の状況を理解するかもしれません。RLを理解することは、高度な知覚がどのようにインテリジェントで自律的なシステムを構築するのに適しているかを理解することにつながります。 PyTorchようなシミュレーション環境でテストされます。多くの実世界のアプリケーションは、知覚(Computer Vision)と意思決定(RL)を統合しています。

すべて読む