用語集

強化学習

強化学習とは、エージェントが試行錯誤を通じて行動を最適化し、報酬を最大化する学習です。コンセプト、アプリケーション、利点を探る!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

強化学習(RL)は、機械学習(ML)の中で、エージェントが特定の目標を達成するために、環境中で行動を行うことによって意思決定を行うことを学習する、明確な分野である。他のMLパラダイムとは異なり、RLエージェントはどの行動を取るべきか明示的に指示されることはない。その代わりに、エージェントは試行錯誤を通じて学習し、その行動に基づいて報酬や罰則という形でフィードバックを受ける。エージェントの基本的な目的は、時間の経過とともに累積報酬を最大化するポリシーと呼ばれる戦略を学習することである。

強化学習の中核概念

RLを理解するには、いくつかの重要な要素がある:

  • エージェント:環境と相互作用する学習者または意思決定者。
  • 環境:エージェントが相互作用する外界またはシステム。エージェントにフィードバックを与える。
  • 状態:現在の状況や環境の構成を表す。コンピュータビジョン(CV)アプリケーションでは、状態は画像データから得られるかもしれない。
  • 行動:環境の状態に影響を与える、エージェントによる動きや決定。
  • 報酬:目標に対するエージェントの最後の行動の良し悪しを示す、環境からの数値フィードバック信号。
  • ポリシー:エージェントが現在の状態に基づいて次の行動を決定するために使用する戦略またはマッピング。RLの目標は、最適なポリシーを見つけることである。

強化学習の仕組み

RLのプロセスは反復的である。エージェントは環境の現在の状態を観察し、現在のポリシーに基づいて行動を選択し、その行動を実行する。環境は新しい状態に遷移し、エージェントに報酬信号を与える。エージェントはこの報酬信号を利用してポリシーを更新し、将来より多くの報酬を受け取ることを目指す。このプロセスの重要な側面は、探索(潜在的により良い報酬を発見するために新しい行動を試す)と搾取(高い報酬をもたらす既知の行動を使用する)の間のバランスである。この学習ループは、マルコフ決定過程(MDP)を用いて定式化されることが多い。

他の機械学習との比較

RLは他の主要なMLパラダイムとは大きく異なる:

  • 教師あり学習各入力に対して正しい出力が提供されるラベル付きデータセットから学習する。RLは、明示的な正しい行動ラベルのない報酬信号から学習する。
  • 教師なし学習ラベル付けされていないデータからパターンや構造を見つける。RLは、相互作用とフィードバックによる目標指向の学習に重点を置く。

複雑な状態空間(画像のような)や近似的な政策や価値関数を扱うために、ニューラルネットワーク(NN)を使用するような深層学習(DL)の技術がRL(深層強化学習として知られている)の中でしばしば採用されているが、報酬に基づく基本的な学習メカニズムは依然として異なる。

実世界での応用

RLは様々な複雑な領域で目覚ましい成功を収めている:

  1. ゲームプレイ:RLエージェントは、囲碁(ディープマインドのAlphaGo)や様々なビデオゲーム(Dota 2のOpenAI Five)のような複雑なゲームで超人的なパフォーマンスを達成している。これらのエージェントは自己プレイを通じて複雑な戦略を学習し、人間の能力をはるかに上回る。この能力は「ビデオゲームのAI」で探求されている。
  2. ロボット工学RLは、運動、物体操作、組み立てなどのタスクを実行するロボットを訓練するために使用される。ロボットは、シミュレートされた環境で、または実世界でのインタラクションを通じて直接、複雑な運動スキルを学習し、不測の事態に適応することができます。Understanding Robotics Integrationについてはこちらをご覧ください。
  3. 自律走行車RLアルゴリズムは、車線変更、合流、交差点ナビゲーションの意思決定など、運転ポリシーの最適化に使用することができ、自動運転車のAIで議論されている進歩に貢献する。
  4. 推薦システム:RLは、時間の経過とともに変化する嗜好に動的に適応しながら、インタラクションやフィードバックに基づいてユーザーの嗜好を学習することで、レコメンデーションをパーソナライズすることができます。レコメンデーションシステムについてもっと知る

強化学習とコンピュータビジョン

実世界の多くのRLアプリケーション、特にロボット工学や自律システムにおいて、コンピュータビジョン(CV)は重要な役割を果たしている。以下のようなモデル Ultralytics YOLOのようなモデルは、視覚入力(カメラフィードなど)を処理して環境に関する関連情報を抽出し、RLエージェントが使用する「状態」表現を形成することができる。これにより、エージェントは周囲の環境を認識し、視覚データに基づいて情報に基づいた意思決定を行うことができる。OpenAI Gymや特殊なシミュレーターのようなツールは、視覚ベースのRLエージェントを訓練するためによく使用されます。Ultralytics モデルは、主に教師あり学習による知覚タスクに焦点を当てていますが、その出力は、物理エージェントを制御したり、複雑な視覚環境をナビゲートするRLシステムにとって重要な入力として機能します。このような複雑なシステムのトレーニングやデプロイは、Ultralytics HUBのようなプラットフォームを使って管理することができます。

RLの概念の基礎的な理解には、SuttonとBartoの強化学習に関する本の入門章のようなリソースが強く推奨される。

すべて読む