深層強化学習(DRL)を探求し、AI意思決定と深層学習を組み合わせる方法を学びましょう。Ultralytics を知覚層として活用する方法を今すぐ習得しましょう。
深層強化学習(DRL)は、 人工知能(AI)の高度なサブセットであり、 強化学習の意思決定能力と 深層学習(DL)の知覚能力を 組み合わせたものである。従来の強化学習は状況と行動を対応付けるために表形式の手法に依存するが、 環境が複雑または視覚的である場合にはこれらの手法は苦戦する。 DRLはニューラルネットワークを用いて 動画フレームやセンサー読み取り値などの高次元入力データを解釈することでこの課題を克服し、 明示的な人間の指示なしに機械が生の経験から直接効果的な戦略を学習することを可能にする。
DRLシステムでは、AIエージェントが離散的な時間ステップで環境と相互作用する。各ステップにおいて、エージェントは現在の「状態」を観察し、ポリシーに基づいて行動を選択し、その行動の成功または失敗を示す報酬信号を受け取る。主な目標は、時間の経過に伴う累積報酬を最大化することである。
「深層」という要素は、深層ニューラルネットワークを用いてポリシー(行動戦略)または価値関数(推定される将来の報酬)を近似することを指します。これによりエージェントは構造化されていないデータを処理でき、コンピュータビジョン(CV)を活用して人間のように環境を「見る」ことが可能になります。この機能はPyTorchなどのフレームワークによって実現されています。 PyTorch や TensorFlowといったフレームワークによって実現され、 これらの複雑なネットワークの学習を容易にします。
DRLは理論研究の域を超え、様々な産業分野において実践的で影響力の大きい応用へと発展しています:
多くのDRLアプリケーションにおいて、「状態」は視覚的である。高速モデルはエージェントの眼として機能し、 生の画像データを構造化データに変換することで、ポリシーネットワークが処理できるようにする。以下の例は、 YOLO26モデルがエージェントの知覚層として機能し、 環境から観測値(例:障害物数)を抽出する方法を示している。
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
ディープ強化学習を類似の用語と区別することは、そのユニークな位置づけを理解するのに役立つ。 を理解するのに役立つ:
DRLシステムの知覚層に必要なデータセットを管理したい開発者は、 アノテーションとクラウドトレーニングのワークフローを簡素化する Ultralytics を利用できます。さらに、研究者は確立されたベースラインに対して DRLアルゴリズムをベンチマークするため、Gymnasiumなどの標準化された環境を 頻繁に利用します。