強化学習とは、エージェントが試行錯誤を通じて行動を最適化し、報酬を最大化する学習です。コンセプト、アプリケーション、利点を探る!
強化学習(RL)は機械学習(ML)の一分野であり、知的エージェントが試行錯誤を通じて最適な意思決定を行うことを学習する。他の学習パラダイムとは異なり、エージェントは取るべき行動を指示されない。その代わりに、環境と相互作用し、報酬や罰則という形でフィードバックを受ける。エージェントの基本的な目標は、時間とともに累積報酬を最大化するポリシーと呼ばれる戦略を学習することである。このアプローチは行動心理学から着想を得ており、SuttonとBartoによる基本的なテキストで概説されているように、逐次的な意思決定問題を解くのに特に強力である。
RLプロセスは、いくつかの重要な要素を含む連続的なフィードバックループとしてモデル化される:
エージェントは環境の現在の状態を観察し、行動を行い、次の状態とともに報酬を受け取る。このサイクルが繰り返され、この経験を通してエージェントは徐々に長期的により高い報酬につながる行動を好むように方針を洗練していく。この問題の正式な枠組みは、マルコフ決定過程(MDP)で記述されることが多い。一般的なRLアルゴリズムには、Q-learningやPolicy Gradientsがある。
RLは、他の主要な機械学習とは異なる:
RLはさまざまな複雑な領域で目覚ましい成功を収めている:
強化学習は、広範な人工知能(AI)ランドスケープにおいて、特に自律的なシステムを構築するために極めて重要な要素である。Ultralyticsのような企業は、教師あり学習を使用した物体検出や インスタンス分割のようなタスクのためのUltralytics YOLOのような視覚AIモデルを専門としていますが、これらのモデルの知覚能力は、RLエージェントにとって不可欠な入力です。
例えば、ロボットが周囲の環境(「状態」)を理解するために、Ultralytics HUBを介して配置された知覚のためのYOLOモデルを使用することができる。そしてRLポリシーは、この情報を使って次の動きを決定する。知覚のためのコンピュータビジョン(CV)と意思決定のためのRLとの間のこの相乗効果は、インテリジェントシステムを構築するための基本である。これらのシステムは、PyTorchや TensorFlowのようなフレームワークを使用して開発されることが多く、Gymnasium(旧OpenAI Gym)のような標準化されたシミュレーション環境で頻繁にテストされます。モデルと人間の嗜好との整合性を向上させるために、人間のフィードバックからの強化学習(RLHF)のような技術も、この分野でますます重要になってきている。RLの進歩は、DeepMindのような組織やNeurIPSのような学術会議によって継続的に推進されている。