用語集

強化学習

強化学習とは、エージェントが試行錯誤を通じて行動を最適化し、報酬を最大化する学習です。コンセプト、アプリケーション、利点を探る!

強化学習(RL)は機械学習(ML)の一分野であり、知的エージェントが試行錯誤を通じて最適な意思決定を行うことを学習する。他の学習パラダイムとは異なり、エージェントは取るべき行動を指示されない。その代わりに、環境と相互作用し、報酬や罰則という形でフィードバックを受ける。エージェントの基本的な目標は、時間とともに累積報酬を最大化するポリシーと呼ばれる戦略を学習することである。このアプローチは行動心理学から着想を得ており、SuttonとBartoによる基本的なテキストで概説されているように、逐次的な意思決定問題を解くのに特に強力である。

強化学習の仕組み

RLプロセスは、いくつかの重要な要素を含む連続的なフィードバックループとしてモデル化される:

  • エージェント:ロボットやゲームプレイプログラムのような学習者であり意思決定者。
  • 環境:エージェントが相互作用する外界。
  • 状態:特定の瞬間の環境のスナップショットで、エージェントに意思決定に必要な情報を提供する。
  • アクション:エージェントが可能な選択肢の中から選択する行動。
  • 報酬:各行動の後に環境からエージェントに送られる数値信号で、その行動がどれだけ望ましいものであったかを示す。

エージェントは環境の現在の状態を観察し、行動を行い、次の状態とともに報酬を受け取る。このサイクルが繰り返され、この経験を通してエージェントは徐々に長期的により高い報酬につながる行動を好むように方針を洗練していく。この問題の正式な枠組みは、マルコフ決定過程(MDP)で記述されることが多い。一般的なRLアルゴリズムには、Q-learningやPolicy Gradientsがある。

他の学習パラダイムとの比較

RLは、他の主要な機械学習とは異なる:

実世界での応用

RLはさまざまな複雑な領域で目覚ましい成功を収めている:

  • ゲームプレイRLエージェントは複雑なゲームで超人的なパフォーマンスを達成している。ディープマインドのアルファ碁がその顕著な例で、世界最高の囲碁棋士を打ち負かすことを学習した。もうひとつは、エージェントが複雑なチーム戦略を学習したDota 2に関するOpenAIの研究である。
  • ロボット工学RLは、物体の操作、組み立て、移動などの複雑なタスクを実行するロボットを訓練するために使用される。ロボットは、明示的にプログラムされる代わりに、シミュレートされた環境または実際の環境において、成功した試みに報酬を与えることで、歩行や物体の把持を学習することができる。これは、バークレー人工知能研究所(BAIR)のような研究機関の重要な研究分野である。
  • 資源管理:都市における交通の流れの管理、エネルギー・グリッドにおける負荷のバランス、化学反応の最適化など、複雑なシステムにおける運用の最適化。
  • レコメンデーションシステムRLは、ユーザーに推奨するアイテムの順序を最適化するために使用することができ、単にすぐにクリックするのではなく、長期的なエンゲージメントと満足度を最大化する。

AIエコシステムにおける関連性

強化学習は、広範な人工知能(AI)ランドスケープにおいて、特に自律的なシステムを構築するために極めて重要な要素である。Ultralyticsのような企業は、教師あり学習を使用した物体検出や インスタンス分割のようなタスクのためのUltralytics YOLOのような視覚AIモデルを専門としていますが、これらのモデルの知覚能力は、RLエージェントにとって不可欠な入力です。

例えば、ロボットが周囲の環境(「状態」)を理解するために、Ultralytics HUBを介して配置された知覚のためのYOLOモデルを使用することができる。そしてRLポリシーは、この情報を使って次の動きを決定する。知覚のためのコンピュータビジョン(CV)と意思決定のためのRLとの間のこの相乗効果は、インテリジェントシステムを構築するための基本である。これらのシステムは、PyTorchや TensorFlowのようなフレームワークを使用して開発されることが多く、Gymnasium(旧OpenAI Gym)のような標準化されたシミュレーション環境で頻繁にテストされます。モデルと人間の嗜好との整合性を向上させるために、人間のフィードバックからの強化学習(RLHF)のような技術も、この分野でますます重要になってきている。RLの進歩は、DeepMindのような組織やNeurIPSのような学術会議によって継続的に推進されている。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク