Yolo 深圳
深セン
今すぐ参加
用語集

人間のフィードバックによる強化学習(RLHF)

人間のフィードバックに基づく強化学習(RLHF)が、AIを人間の価値観にどう適合させるかを学びましょう。その中核的な構成要素とUltralytics 統合について探求します。

人間からのフィードバックを用いた強化学習(RLHF)は、訓練ループに人間の直接的な入力を組み込むことで人工知能モデルを洗練させる高度な機械学習技術である。静的なラベル付きデータセットのみに依存する標準的な教師あり学習とは異なり、RLHFは人間の評価者がモデルの出力にランク付けや評価を行う動的なフィードバック機構を導入する。 このプロセスにより、AIは「有用性」「安全性」「創造性」といった複雑で主観的、あるいはニュアンスのある目標を捉えることが可能となる。これらは単純な数学的損失関数では定義が困難なものである。 RLHFは現代の大規模言語モデル(LLM)や生成AI開発の基盤技術となり、強力な基盤モデルが人間の価値観やユーザーの意図と効果的に整合することを保証している。

RLHFの中核コンポーネント

RLHFプロセスは、一般的に3段階のパイプラインに従い、生の予測能力と人間に整合した行動との間のギャップを埋めるように設計されている。

  1. 教師あり微調整(SFT):ワークフローは通常、事前学習済み基盤モデルから開始される。開発者は、専門家が作成した質問と回答のペアなど、高品質な小規模なデモンストレーションデータセットを用いて初期微調整を行う。このステップでは、タスクに求められる一般的な形式とトーンをモデルに教えることで、ベースラインポリシーを確立する。
  2. 報酬モデルトレーニング:このフェーズがRLHFの特徴である。人間のアノテーターが同じ入力に対してモデルが生成した複数の出力をレビューし、最良から最悪までランク付けする。このデータラベリング作業により、選好のデータを生成する。報酬モデルと呼ばれる別のニューラルネットワークがこの比較データでトレーニングされ、人間の判断を反映するスカラースコアを予測する。Ultralytics 上で利用可能なツールは、 このようなアノテーションワークフローの管理を効率化できます。
  3. 強化学習最適化:最終的に、元のモデルは強化学習環境内のAIエージェントとして機能する。 報酬モデルを指針として、近似政策最適化(PPO)などの最適化アルゴリズムがモデルのパラメータを調整し、期待報酬を最大化する。このステップにより、モデルの政策は学習された人間の選好と整合し、有益で安全な行動を促進すると同時に、有害または無意味な出力を抑制する。

実際のアプリケーション

RLHFは、高い安全基準と人間との相互作用に対する微妙な理解を必要とするAIシステムを展開する上で極めて重要であることが実証されている。

  • 対話型AIとチャットボット:RLHFの最も顕著な応用例は、チャットボットを「有用」「無害」「誠実」に調整することである。偏見を含む出力、事実誤認のある出力、危険な出力を罰則化することで、RLHFはLLMにおける幻覚現象を軽減し、アルゴリズムバイアスのリスクを低減する。これにより、仮想アシスタントは正当な問い合わせには有用でありつつ、有害な指示を拒否できるようになる。
  • ロボティクスと物理制御:RLHFはテキストを超え、 複雑な物理タスクに対する完璧な報酬関数の定義が困難な ロボティクスAIの領域にまで拡張される。例えば、混雑した倉庫内を移動する方法を学習するロボットは、 どの経路が安全で、どの経路が混乱を引き起こしたかについて、人間の監督者からフィードバックを受け取ることがある。 このフィードバックは、目標達成のみに基づく単純な 深層強化学習よりも効果的に、 ロボットの制御ポリシーを洗練させる。

RLHFと標準的な強化学習の比較

RLHFの特異的な有用性を理解するには、従来の強化学習(RL)との区別が有用である。

  • 標準的なRL:従来の設定では、報酬関数は環境によってハードコードされることが多い。 例えばビデオゲームでは、環境が明確な信号を提供する(勝利で+1、敗北で-1)。エージェントは この定義されたマルコフ決定過程(MDP)内で 自身の行動を最適化する。
  • RLHF:創造的な物語を書くことや礼儀正しい運転など、多くの現実世界のシナリオにおいて、 「成功」は主観的なものです。RLHFは、ハードコードされた報酬を人間の嗜好から導出された学習型報酬モデルに置き換えることでこの問題を解決します。これにより、「品質」や「適切さ」といった明示的にプログラムすることが不可能な抽象的な概念の最適化が可能になります。

知覚とフィードバックループの統合

視覚アプリケーションにおいて、RLHFに整合したエージェントは、行動前に環境状態を認識するためにコンピュータビジョン(CV)に依存することが多い。YOLO26などの堅牢な検出器が知覚層として機能し、構造化された観測値(例:「3メートル先に障害物を検出」)を提供し、ポリシーネットワークがこれに基づいて行動を選択する。

以下のPython 、YOLO 環境状態を提供する簡略化された概念を示しています。完全なRLHFループでは、「報酬」信号は、この検出データに基づくエージェントの決定に関する人間のフィードバックで訓練されたモデルから提供されます。

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

強力な知覚モデルと人間のフィードバックを通じて洗練されたポリシーを組み合わせることで、開発者は知能的であるだけでなく、AI安全原則と厳密に整合したシステムを構築できる。スケーラブルな監視技術(例:憲法AI)に関する継続的な研究はこの分野を進化させ続けており、大規模な人間によるアノテーションのボトルネックを軽減しつつ、高いモデル性能を維持することを目指している。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加