用語集

強化学習

強化学習のパワーを発見:エージェントが報酬を最大化するために環境と相互作用する機械学習アプローチ。詳細はこちら

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

強化学習(RL)は機械学習の一種であり、エージェントが環境との相互作用によって一連の決定を行うことを学習する。エージェントは環境内で行動を起こし、報酬やペナルティの形でフィードバックを受け取る。目標は、エージェントが時間とともに累積報酬を最大化する戦略(ポリシー)を学習することである。この学習プロセスは、試行錯誤を通じて学習する行動心理学にヒントを得ている。ラベル付けされたデータに依存する教師あり学習や、ラベル付けされていないデータからパターンを見つけることに重点を置く教師なし学習とは異なり、強化学習はエージェントとその環境との間の相互作用のダイナミクスによって駆動される。

強化学習の主要概念

強化学習を理解する上で、いくつかの核となる概念がある:

  • エージェント:環境と相互作用する学習者であり意思決定者。
  • 環境:エージェントが相互作用する外部システム。エージェントに状態を提示し、エージェントからアクションを受け取る。
  • 状態:特定の時点における環境の表現。エージェントが行動を起こすのに必要な情報を提供する。
  • 行動:エージェントの行動や意思決定で、環境に影響を与えるもの。
  • 報酬:エージェントの行動の成否を測る環境からのフィードバック。エージェントの目的は、時間の経過とともに総報酬を最大化することである。
  • 方針:エージェントが現在の状態に基づいて次の行動を決定するために採用する戦略。決定論的であることも、確率的であることもある。
  • 価値関数:特定の状態にあること、またはある状態で特定の行動をとることの期待累積報酬を推定する関数。
  • Q値:ある状態から出発し、特定の行動をとり、その後特定の方針に従う期待リターン。

強化学習の妥当性と応用

強化学習は、これまで困難であった複雑な意思決定問題を解決する能力により、大きな注目を集めている。その関連性は様々な領域に及んでおり、その汎用性とパワーを実証している。例えば、自律走行車では、RLは、道路をナビゲートし、交通の中で決定を下し、ルートを最適化するために車両を訓練するために使用することができる。ヘルスケアでは、RLアルゴリズムは患者の反応に基づいて治療計画をパーソナライズし、病院運営を最適化することができる。

強化学習の実例

ゲームプレー:RLの最も顕著な例の1つは、ゲームプレイの分野である。囲碁で世界チャンピオンを破ったディープマインドのAI、アルファ碁は、強化学習を利用してゲームをマスターした。同様に、AlphaZeroはチェス、将棋、囲碁で超人的なパフォーマンスを達成し、複雑な戦略ゲームをマスターする上でRLの力を実証した。ビデオゲームにおけるAIの詳細については、Ultralytics ブログをご覧ください。

ロボット工学強化学習はロボット工学において、ロボットの制御、ナビゲーション、操作などのタスクに広く使われている。例えば、ロボットは試行錯誤を繰り返し、報酬に導かれながら、歩行や物体の把持、複雑なタスクの実行を学習することができる。これは、明示的なプログラミングが困難なシナリオにおいて特に有用である。ロボット工学におけるコンピュータビジョンの統合について、さらに詳しくご覧ください。

強化学習と関連用語の区別

強化学習は強力な手法であるが、他の機械学習パラダイムと区別することが不可欠である:

  • 教師あり学習:教師あり学習では、モデルはラベル付けされたデータセットで学習され、各入力に対して正しい出力がわかっている。対照的に、強化学習では、明示的なラベルを使用せずに、報酬とペナルティから学習する。教師あり学習の詳細を見る
  • 教師なし学習:教師なし学習は、ラベル付けされていないデータを扱い、その根底にあるパターンや構造を発見することを目的とする。一方、強化学習は、環境との相互作用を通じて最適な行動を学習することに重点を置く。教師なし学習の詳細はこちら。

強化学習の技術とツール

いくつかの技術とフレームワークが、強化学習モデルの開発と展開をサポートしている。 PyTorchそして TensorFlowなどは、RLエージェントの構築とトレーニングのためのツールを提供する、人気のあるディープラーニングフレームワークである。さらに、OpenAI Gymのような環境は、RLアルゴリズムの訓練とテストのための標準化された環境を提供している。Ultralytics 、コンピュータビジョンにおける最先端のソリューションも提供しており、強化学習技術と統合することができる。例えば、Ultralytics YOLO のモデルは、RLフレームワーク内の物体検出タスクに使用できます。モデルのデプロイについては、Ultralytics HUBページで詳細をご覧ください。

すべて読む