Yolo 深圳
深セン
今すぐ参加
用語集

Transformer

トランスフォーマーアーキテクチャと自己注意機構を探求しましょう。RT-DETR Ultralytics といったAIモデルがRT-DETR これらによって高い精度を実現する仕組みを学びます。

トランスフォーマーは、自然言語や視覚特徴といった順序付き入力データを処理するために自己注意機構に依存する深層学習アーキテクチャである。Google 画期的な論文 Attention Is All You Needで発表され、従来の 再帰型ニューラルネットワーク(RNN)が抱えていた 逐次処理の制約を排除することで 人工知能(AI)分野に革命をもたらしました。 トランスフォーマーはデータシーケンス全体を同時に分析するため、 GPUなどの現代的なハードウェア上で大規模な並列処理が可能となり、 トレーニング時間を大幅に短縮します。

Transformerの仕組み

トランスフォーマーの中核となる革新は 自己注意機構である。これによりモデルは 入力データの異なる部分同士を相互に比較して重要度を評価できる。例えば文中で モデルは周囲の文脈に基づき、「銀行」という単語が「川」よりも「お金」と より密接に関連していると学習できる。

このアーキテクチャは一般的に、次の2つの主要コンポーネントで構成される:

  • エンコーダ:入力データを豊富な数値表現または埋め込みに変換する。
  • デコーダ:エンコーダの出力を使用して、翻訳された文や予測された境界ボックスなどの最終結果を生成する。

コンピュータビジョン(CV)の分野では、 モデルは通常、ビジョン・トランスフォーマー(ViT)と呼ばれる 変種を採用している。 テキストトークンを処理する代わりに、 画像を固定サイズのパッチ(例:16x16ピクセル)に分割する。 これらのパッチは平坦化されシーケンスとして扱われるため、 モデルは標準的な畳み込みニューラルネットワーク(CNN)よりも効果的に 「グローバルコンテキスト」——画像内の離れた部分間の関係性を理解する—— を捉えることができる。

トランスフォーマー対関連概念

トランスフォーマーアーキテクチャを関連用語と区別することが重要です:

  • アテンション機構これはデータの特定部分に焦点を当てる一般的な概念である。Transformerは完全にアテンション層を中心に構築された特定のアーキテクチャであり、他のモデルではアテンションを小さな追加機能としてのみ使用する場合がある。
  • 大規模言語モデル(LLM) 「GPT」といった用語は、膨大な量のテキストで訓練された特定のモデルを指します。現代のほぼすべてのLLMは、 基盤となるエンジンとしてトランスフォーマーアーキテクチャを採用しています。

実際のアプリケーション

トランスフォーマーの汎用性により、様々な産業分野で採用が進んでいる:

  1. 医療画像: 医療分野におけるAIでは、トランスフォーマーが 医療画像解析のような複雑なタスクに活用される。 局所特徴に焦点を当てるCNNが見逃す可能性のある 高解像度MRIやCTスキャンにおける微細な異常を検出するのに、 トランスフォーマーのグローバルな空間的関係を理解する能力が役立つ。
  2. 自律システム: 自律走行車においては、歩行者や他の車両の軌跡を理解することが極めて重要である。トランスフォーマーは、時間軸にわたる物体の追跡や将来の動きの予測を通じて映像理解に優れており、安全なナビゲーションを保証する。

トランスフォーマーを用いた物体検出

従来、物体検出ではCNNが主流であったが、 リアルタイム検出トランスフォーマー(RT-DETR)のようなトランスフォーマーベースのモデルが 強力な代替手段として台頭している。RT-DETR CNNバックボーンの高速性とトランスフォーマーデコーディングヘッドの高精度をRT-DETR 。

ただし、純粋なトランスフォーマーモデルは計算負荷が高い場合があります。多くのエッジアプリケーションでは、効率的なアテンション機構と高速な畳み込み処理を統合したYOLO26のような高度に最適化されたハイブリッドモデルが、速度と精度の優れたバランスを提供します。Ultralytics 、データセットの注釈付けからモデルエクスポートまでのワークフローを効率化し、これらのモデルのトレーニングとデプロイメントを容易に管理できます。

Python :RT-DETRの使用

以下の例は、Transformerベースのモデルを用いて推論を実行する方法を示しています。 ultralytics このコードは事前学習済みRT-DETR を読み込み、画像内の物体を検出します。

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

数学的基礎に関する詳細な情報については、 PyTorch トランスフォーマー層に関するPyTorch 技術的な深みを提供し、 IBMのトランスフォーマーガイドは高水準の ビジネス的視点を提供します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加