強化学習(RL)の核心概念を探求しましょう。エージェントがフィードバックを活用してタスクを習得する方法を学び、Ultralytics が強化学習ビジョンシステムをどのように支えているかをご覧ください。
強化学習(RL)は、機械学習(ML)の目標指向型サブセットであり、自律システム(エージェント)が行動を実行し環境からのフィードバックを受け取ることで意思決定を学習する。 正解がラベル付けされた静的データセットに依存する教師あり学習とは異なり、RLアルゴリズムは動的な試行錯誤プロセスを通じて学習する。 エージェントはシミュレーションまたは現実世界と相互作用し、自らの行動の結果を観察することで、 どの戦略が長期的に最も高い報酬をもたらすかを判断する。このアプローチは、 行動が時間をかけて正の強化(報酬)と負の強化(罰)によって形成されるという オペラント条件付けの心理学的概念を忠実に模倣している。
強化学習の機能を理解するには、それを相互作用の連続的なサイクルとして視覚化すると役立つ。この枠組みは しばしば数学的に マルコフ決定過程(MDP)として形式化され、 結果が部分的にランダムで部分的に意思決定者によって制御される状況における意思決定を構造化する。
この学習ループの主要な構成要素には以下が含まれます:
強化学習は理論的研究の域を超え、様々な産業分野において実用的で影響力の大きい導入段階へと移行している。
多くの現代的なアプリケーションでは、エージェントが観察する「状態」は視覚的である。 YOLO26のような高性能モデルは、強化学習エージェントの知覚層として機能し、 生画像を構造化データに変換する。この処理済み情報——物体の位置や分類など——が、 強化学習ポリシーが行動を選択するために使用する状態となる。
次の例は ultralytics 環境フレームを処理するパッケージ。
理論的な強化学習ループのための状態表現(例:オブジェクトの数)を作成する。
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
強化学習を他の機械学習パラダイムと区別することが重要です:
計算能力の向上に伴い、 人間からのフィードバックに基づく強化学習(RLHF) といった技術がエージェントの学習方法をさらに洗練させ、その目的を複雑な人間の価値観や安全基準とより密接に整合させている。 研究者は、これらのアルゴリズムのベンチマークと改善のために、 Gymnasiumのような標準化された環境を頻繁に利用します。 これらのエージェントの知覚層に必要なデータセットを管理しようとするチームには、 Ultralytics アノテーションとモデル管理のための包括的なツールを提供します。