用語集

ディープ強化学習

AIが複雑な行動を学習し、ゲーム、ロボット工学、ヘルスケアなどの課題を解決する、深層強化学習のパワーをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ディープ強化学習は、強化学習とディープラーニングを組み合わせた機械学習のサブ分野である。強化学習は、環境と相互作用し、報酬という形でフィードバックを受け取ることによって意思決定を行うようにエージェントを訓練することを含む。ディープラーニングは、大量のデータを処理して学習するためにディープニューラルネットワークを利用する。これら2つのアプローチを組み合わせることで、深層強化学習は、複雑な行動を学習し、さまざまなドメインで困難な問題を解決できるエージェントの作成を可能にする。

深層強化学習の主要概念

深層強化学習は、強化学習と深層学習の両方からいくつかの基本的な概念に基づいて構築されている。これらの概念を理解することは、深層強化学習がどのように機能するかを把握する上で極めて重要である。

代理店

強化学習では、エージェントは環境と相互作用し、意思決定を行うことを学習するエンティティである。エージェントは環境の状態を観察し、行動を起こし、その行動に基づいて報酬を受け取る。

環境

環境とは、エージェントが相互作用する世界やシステムのことである。それは物理的な空間であったり、シミュレーションされたシナリオであったり、エージェントが動作するその他のコンテキストであったりする。環境はエージェントに観察を提供し、エージェントの行動に応答する。

状態は、環境の現在の状況または構成を表す。特定の時点での環境を記述する変数の集合である。エージェントは状態を用いて意思決定を行う。

アクション

アクションとは、エージェントが環境内で行う決定や行動のことです。アクションには離散的なもの(例:左へ移動、右へ移動)と連続的なもの(例:一定量加速)がある。

報酬

報酬とは、エージェントの行動に応じて環境からエージェントに与えられるフィードバックである。報酬はポジティブ、ネガティブ、ニュートラルのいずれかであり、エージェントを望ましい行動へと導く。エージェントの目標は、時間の経過とともに累積報酬を最大化することである。

方針

ポリシーとは、現在の状態に基づいてエージェントの行動を決定する戦略またはルールのセットである。ディープ強化学習では、ポリシーはディープニューラルネットワークで表現されることが多い。

価値関数

価値関数は、エージェントが与えられた状態または状態-アクションのペアから達成できる期待される累積報酬を推定します。価値関数は、エージェントがその行動の長期的な結果を評価するのに役立ちます。

Qラーニング

Q学習は、与えられた状態において特定の行動をとることの価値を推定するQ関数を学習する、一般的な強化学習アルゴリズムである。ディープQ学習は、ディープニューラルネットワークを使用してQ関数を近似する。

ポリシーのグラデーション

政策勾配法は、期待累積報酬を最大化するように政策を直接最適化する。これらの方法は、報酬が増加する方向に政策パラメータを更新する。

ディープ強化学習と他の機械学習技法との比較

深層強化学習は、他の機械学習手法とはいくつかの重要な点で異なる。ラベル付きデータに依存する教師あり学習とは異なり、深層強化学習は報酬と環境との相互作用から学習する。このため、ラベル付きデータが乏しい、あるいは入手できない問題に適している。ラベルのないデータからパターンを見つけることを目的とする教師なし学習とは対照的に、深層強化学習は報酬を最大化するための最適な行動を学習することに重点を置く。

従来の強化学習と比べ、深層強化学習は深層ニューラルネットワークのパワーを活用し、高次元の状態空間と行動空間を扱うことができる。これにより、従来の手法では困難だった、より複雑な問題に取り組むことができる。

ディープ強化学習の応用

深層強化学習は、様々なアプリケーションで目覚ましい成功を収めており、その汎用性と可能性を示している。

ゲームプレイ

深層強化学習の最も顕著な応用例のひとつは、ゲームプレイである。例えば、ディープマインドのアルファ碁は、深層強化学習を使って囲碁の世界チャンピオンを破った。同様に、AlphaZeroは同様の技術を使ってチェスと将棋をマスターした。OpenAIのDota 2 AIであるOpenAI Fiveも、複雑なマルチプレイヤーゲームであるDota 2でプロチームを破り、深層強化学習の威力を見せつけた。ゲームにおけるAIの役割については、「ビデオゲームにおけるAI」をご覧ください:ゲームの未来を形作る

ロボット工学

深層強化学習は、ロボットの運動、操作、ナビゲーションなどのタスクにおいて、ロボット工学で有望視されている。シミュレーション環境でロボットを訓練することで、研究者はロボットが実世界で複雑なタスクを実行できるような制御ポリシーを開発することができる。例えば、深層強化学習は、ロボットの歩行、物体の把持、さらにはサッカーのプレーの訓練に使用されている。アルゴリズムから自動化へ:AI's Role in Roboticsをご覧ください。

自律走行車

自律走行車は、車線維持、追い越し、交差点ナビゲーションなどの意思決定タスクにおいて、深層強化学習の恩恵を受けることができる。シミュレーションや実世界の運転シナリオとの相互作用から学習することで、自律走行システムはロバストで適応的な制御ポリシーを開発することができる。自動運転車におけるAIの詳細については、自動運転車におけるAIをご覧ください。

資源管理

深層強化学習は、エネルギー最適化、交通制御、サプライチェーン管理などの資源管理問題に適用できる。これらのシステムを強化学習環境としてモデル化することで、エージェントは資源配分を最適化し、コストを最小化する効率的な意思決定を行うことを学習することができる。

ヘルスケア

ヘルスケアの分野では、深層強化学習はパーソナライズされた治療計画、創薬、医療診断に利用できる。例えば、病歴や現在の状態に基づいて、患者に最適な治療戦略を決定するのに役立ちます。ヘルスケアにおけるAIの役割については、「ヘルスケアにおけるAIの役割」をご覧ください。

課題と今後の方向性

深層強化学習は目覚ましい成果を上げているが、依然としていくつかの課題に直面している。サンプルの非効率性、学習中の不安定性、適切な報酬関数の定義の難しさなどである。研究者たちは、これらの課題への対処に積極的に取り組んでおり、マルチエージェント強化学習、階層的強化学習、メタ強化学習など、深層強化学習の新たなフロンティアを模索している。

深層強化学習が進歩し続けるにつれ、様々な実世界のアプリケーションにおいてますます重要な役割を果たすようになり、イノベーションを推進し、産業を変革することが期待されている。AIの広範な影響については、以下をご覧ください。 Ultralytics.

すべて読む