用語集

強化学習

強化学習とは、エージェントが試行錯誤を通じて行動を最適化し、報酬を最大化する学習です。コンセプト、アプリケーション、利点を探る！

強化学習（RL）は機械学習（ML）の一分野であり、知的エージェントが試行錯誤を通じて最適な意思決定を行うことを学習する。他の学習パラダイムとは異なり、エージェントは取るべき行動を指示されない。その代わりに、環境と相互作用し、報酬や罰則という形でフィードバックを受ける。エージェントの基本的な目標は、時間とともに累積報酬を最大化するポリシーと呼ばれる戦略を学習することである。このアプローチは行動心理学から着想を得ており、SuttonとBartoによる基本的なテキストで概説されているように、逐次的な意思決定問題を解くのに特に強力である。

強化学習の仕組み

RLプロセスは、いくつかの重要な要素を含む連続的なフィードバックループとしてモデル化される：

エージェント：ロボットやゲームプレイプログラムのような学習者であり意思決定者。
環境：エージェントが相互作用する外界。
状態：特定の瞬間の環境のスナップショットで、エージェントに意思決定に必要な情報を提供する。
アクション：エージェントが可能な選択肢の中から選択する行動。
報酬：各行動の後に環境からエージェントに送られる数値信号で、その行動がどれだけ望ましいものであったかを示す。

エージェントは環境の現在の状態を観察し、行動を行い、次の状態とともに報酬を受け取る。このサイクルが繰り返され、この経験を通してエージェントは徐々に長期的により高い報酬につながる行動を好むように方針を洗練していく。この問題の正式な枠組みは、マルコフ決定過程（MDP）で記述されることが多い。一般的なRLアルゴリズムには、Q-learningやPolicy Gradientsがある。

他の学習パラダイムとの比較

RLは、他の主要な機械学習とは異なる：

教師あり学習：教師あり学習では、モデルは正しい答えで完全にラベル付けされたデータセットから学習する。例えば、画像分類モデルは、明示的なラベルが付いた画像で学習される。対照的に、RLは、各ステップで最適な行動が何であるかを明示的に監視することなく、報酬信号から学習する。教師あり学習と教師なし学習の詳細な比較については、こちらをご覧ください。
教師なし学習：このパラダイムでは、ラベル付けされていないデータから隠れたパターンや構造を見つけ出す。その目的は、報酬を最大化するための意思決定ではなく、k-meansクラスタリングのようなデータ探索である。
ディープ強化学習（DRL）：DRLは異なるパラダイムではなく、複雑で高次元の状態・行動空間を扱うためにディープニューラルネットワークを使用するRLの高度な形態である。これによりRLは、自律走行車のカメラからの生ピクセルデータの処理など、以前は困難と考えられていた問題にも対応できるようになる。

実世界での応用

RLはさまざまな複雑な領域で目覚ましい成功を収めている：

ゲームプレイ：RLエージェントは複雑なゲームで超人的なパフォーマンスを達成している。ディープマインドのアルファ碁がその顕著な例で、世界最高の囲碁棋士を打ち負かすことを学習した。もうひとつは、エージェントが複雑なチーム戦略を学習したDota 2に関するOpenAIの研究である。
ロボット工学：RLは、物体の操作、組み立て、移動などの複雑なタスクを実行するロボットを訓練するために使用される。ロボットは、明示的にプログラムされる代わりに、シミュレートされた環境または実際の環境において、成功した試みに報酬を与えることで、歩行や物体の把持を学習することができる。これは、バークレー人工知能研究所（BAIR）のような研究機関の重要な研究分野である。
資源管理：都市における交通の流れの管理、エネルギー・グリッドにおける負荷のバランス、化学反応の最適化など、複雑なシステムにおける運用の最適化。
レコメンデーションシステム：RLは、ユーザーに推奨するアイテムの順序を最適化するために使用することができ、単にすぐにクリックするのではなく、長期的なエンゲージメントと満足度を最大化する。

AIエコシステムにおける関連性

強化学習は、広範な人工知能(AI)ランドスケープにおいて、特に自律的なシステムを構築するために極めて重要な要素である。Ultralyticsのような企業は、教師あり学習を使用した物体検出やインスタンス分割のようなタスクのためのUltralytics YOLOのような視覚AIモデルを専門としていますが、これらのモデルの知覚能力は、RLエージェントにとって不可欠な入力です。

例えば、ロボットが周囲の環境（「状態」）を理解するために、Ultralytics HUBを介して配置された知覚のためのYOLOモデルを使用することができる。そしてRLポリシーは、この情報を使って次の動きを決定する。知覚のためのコンピュータビジョン（CV）と意思決定のためのRLとの間のこの相乗効果は、インテリジェントシステムを構築するための基本である。これらのシステムは、PyTorchや TensorFlowのようなフレームワークを使用して開発されることが多く、Gymnasium（旧OpenAI Gym）のような標準化されたシミュレーション環境で頻繁にテストされます。モデルと人間の嗜好との整合性を向上させるために、人間のフィードバックからの強化学習（RLHF）のような技術も、この分野でますます重要になってきている。RLの進歩は、DeepMindのような組織やNeurIPSのような学術会議によって継続的に推進されている。

強化学習

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

Ultralytics YOLOでAIモデルを数秒でトレーニング

Ultralytics HUBでYOLOモデルを簡単にトレーニング

強化学習の仕組み

他の学習パラダイムとの比較

実世界での応用

AIエコシステムにおける関連性

このカテゴリの続きを読む

アディティブ・マニュファクチャリングを理解する技術と使用例

Ultralytics YOLO11による空港地上業務のモニタリング

製造業におけるロボティクスの進化と未来

Ultralyticsコミュニティに参加する