用語集

強化学習

強化学習の探求:ロボット工学、ゲーム、産業におけるRLの概念とアプリケーションを使用して、自律的な意思決定でAIを変革する。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

強化学習(RL)は機械学習の一分野であり、エージェントが特定の目標を達成するために環境内で行動を行うことで意思決定を行うことを学習する。モデルがラベル付けされたデータセットから学習する教師あり学習とは異なり、強化学習はエージェントを最適な行動に導くための報酬と罰則のシステムに依存している。

強化学習の仕組み

強化学習では、エージェントは離散的な時間ステップで環境と相互作用する。各ステップにおいて、エージェントは数値である報酬という形でフィードバックを受け取る。目標は、時間の経過とともに累積報酬を最大化することである。エージェントは、決定論的または確率論的なポリシーに基づいて行動を選択する。時間の経過とともに、エージェントはその行動の結果から学ぶので、ポリシーは改善される。

RLシステムの主要な要素には以下が含まれる:

  • エージェント:学習者または意思決定者。
  • 環境:エージェントが相互作用するすべてのもの。
  • 行動:エージェントが取り得るすべての行動。
  • 報酬:行動を評価するための環境からのフィードバック。
  • 状態:環境の現状を表す。
  • 方針:エージェントが現在の状態に基づいて行動を決定するために採用する戦略。

RLの重要な概念

  • 価値関数:与えられた状態または状態-動作のペアから期待される累積報酬を推定する。
  • Q学習:一般的なRLアルゴリズムで、エージェントはアクションの値を直接学習する。
  • 探検対探検:新しい戦略を模索する必要性と、既知の成功戦略を活用する必要性のバランスをとること。
  • 時間差学習:モンテカルロ法と動的計画法のアイデアを組み合わせたもの。

RLと関連用語の区別

強化学習は、モデルが入出力ペアから学習する教師あり学習とは異なる。その代わりに、RLは環境との相互作用から学習することを重視する。また、報酬フィードバックのための明示的なラベルが利用できないため、教師なし学習とも異なる。

強化学習の応用

自動運転車

強化学習は、自動運転車のAI開発において極めて重要である。RLアルゴリズムは、これらの車両が物理的なテストの前にシミュレーション環境を通じて最適な運転戦略を学習するのに役立つ。

ロボット工学

RLは、ロボットが試行錯誤しながら複雑なタスクを学習することを可能にする。例えば、倉庫で働くロボットは、強化学習によって様々な物体の取り扱いを学習し、効率と精度を向上させることができる。

ゲームプレイ

RLがゲームに応用されているのは有名で、ディープマインドのアルファ碁が示したように、エージェントは囲碁やチェスのようなゲームのプレイを学習し、マスターする。

ビジネスと産業におけるRL

強化学習は、在庫管理や物流などの業務を最適化することができる。それは UltralyticsRLベースのシステムは、サプライチェーンの効率と費用対効果を高めるためのデータ駆動型の意思決定に役立つ。

さらなる探求のためのリソース

強化学習は、自律的な意思決定が可能な知的システムを開発するための強固な手法として際立っており、人工知能や機械学習の進歩の要となっている。

すべて読む