注意メカニズムが人間の集中力を模倣することでAIに革命をもたらす仕組みを探る。クエリ、キー、バリューのUltralytics の精度を向上させる仕組みを学ぶ。
注意機構は、 人工知能(AI)における基盤技術であり、 であり、人間が特定の細部に集中しつつ無関係な情報を無視する認知能力を模倣する。 深層学習(DL)の文脈において 深層学習(DL)において、この機構は ニューラルネットワーク(NN)が 入力データの異なる部分に動的に異なる重要度、すなわち「重み」を割り当てることを可能にする。 画像や文章全体を均等な重視度で処理する代わりに、モデルは最も重要な特徴(文脈を理解するための文中の特定単語や、複雑な視覚シーン内の明確な物体など)に注目することを学習する。この画期的な進歩が トランスフォーマー アーキテクチャの原動力であり、 自然言語処理(NLP)から 自然言語処理(NLP) から高度な コンピュータビジョン(CV)に革命をもたらした。
もともと、 再帰型ニューラルネットワーク(RNN)のとして設計された注意機構は、 消失勾配問題 問題に対処します。このプロセスは、クエリ、キー、値という3つの要素を含む検索の比喩を用いて説明されることがよくあります。
クエリを様々なキーと比較することで、モデルはアテンションスコアを算出する。このスコアによって、 どの程度のバリューが取得され、出力形成に利用されるかが決定される。これによりモデルは 長距離依存関係を効果的に処理し、データポイント間の距離に関係なくそれらの関係性を理解することが可能となります。 を効果的に処理し、データポイント間の距離に関係なくそれらの関係性を理解することを可能にします。
注意メカニズムは、現代技術における最も顕著な進歩のいくつかを可能にしてきた。
注意と 畳み込みニューラルネットワーク(CNN)。CNNが固定ウィンドウ(カーネル)を用いて局所的にデータを処理しdetect に対し、アテンションは データ全体をグローバルに処理し、入力の各部分を他のあらゆる部分と関連付ける。
最先端モデルである Ultralytics は リアルタイム推論 に最適化されている一方、 ハイブリッドアーキテクチャである RT-DETR (リアルタイム検出トランスフォーマー)などのハイブリッドアーキテクチャを 明示的に注意機構(アテンション)を活用し高精度を実現。両モデルとも Ultralytics で容易に学習・デプロイが可能です。
Python 、推論を実行する方法を示しています。 RT-DETRモデルアーキテクチャ
注意メカニズムを根本的に依存する
オブジェクト検出.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")