用語集

変圧器

TransformerのアーキテクチャがAIにどのような革命をもたらし、NLP、コンピュータビジョン、高度なMLタスクのブレークスルーをもたらすかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

トランスフォーマーは、人工知能(AI)や機械学習(ML)の分野、特に自然言語処理(NLP)や最近ではコンピュータビジョン(CV)の分野を大きく発展させた、極めて重要なニューラルネットワークアーキテクチャである。Attention Is All You Need(注意はすべて必要)」という影響力のある論文で紹介されたニューラルネットワークは、自己注意と呼ばれるメカニズムを用いて、テキストや時系列などの逐次データを処理する。これにより、モデルは入力の異なる部分の重要性を動的に計量することができ、リカレント・ニューラル・ネットワーク(RNN)のような旧来のアーキテクチャの主要な限界を克服することができる。

トランスフォーマーの仕組み

Transformersの核となる革新性は、自己注意メカニズムである。RNNが入力を逐次処理(1つの要素を次々に処理)し、勾配が消失するなどの問題のために長いシーケンスで苦労することがあるのとは異なり、Transformersは入力シーケンスのすべての部分を同時に考慮することができる。この並列処理能力は、以下のような企業のGPUのような最新のハードウェア上での学習を大幅にスピードアップする。 NVIDIA.

一般的な畳み込みニューラルネットワーク(CNN)が畳み込みを行う固定サイズのフィルターを通して局所的な特徴に注目するのに対して、アテンションメカニズムによってトランスフォーマーは、入力全体にわたる長距離の依存関係や文脈的な関係を捉えることができる。このグローバルな文脈を理解する能力は、Vision Transformers(ViTs)で使用されるテキストや画像パッチのいずれにおいても、複雑な関係を含むタスクにとって極めて重要である。

関連性とインパクト

トランスフォーマーは、文脈の把握や長いシーケンスの処理に有効であるため、多くの最先端AIモデルの基盤となっている。その並列化可能な性質は、OpenAIによって開発されたGPT-3や GPT-4のような、数十億のパラメータを持つ大規模なモデルの学習を可能にし、生成AIにおけるブレークスルーをもたらしました。このスケーラビリティと性能により、Transformerは様々なAIタスクの進歩の中心的存在となり、研究および産業界全体のイノベーションを推進している。BERTのような多くの一般的なTransformerモデルは、以下のようなプラットフォームを通じて容易に利用できる。 Hugging Faceなどのフレームワークを使用して実装されている。 PyTorchTensorFlow多くの場合、Ultralytics HUBのようなMLOpsプラットフォームに統合されている。

AIとMLの応用

トランスフォーマーは汎用性が高く、数多くのAIアプリケーションに電力を供給する:

トランスフォーマーと他のアーキテクチャー

トランスフォーマーを他の一般的なニューラルネットワークアーキテクチャと区別することは有益である:

  • トランスフォーマーとRNNの比較:RNNはデータを逐次的に処理するため、時系列データには適しているが、長い系列では以前の情報を忘れてしまう傾向がある(消失勾配問題)。Transformersは自己注意を用いてシーケンスを並列処理するため、長距離の依存関係をより効果的に捉え、並列ハードウェア(GPU)上でより高速に学習することができる。
  • トランスフォーマーとCNNの比較:CNNは、畳み込みフィルターを用いて、格子状のデータ(例えば画像のピクセル)の局所的パターンを識別することに優れている。CNNは、以下のような多くの視覚タスクに対して非常に効率的である。 Ultralytics YOLOモデルである。トランスフォーマー、特にViTは、画像をパッチに分割し、それらの間の関係をモデル化するために自己注意を使用する。CNN機能とトランスフォーマー層を組み合わせたハイブリッド・アーキテクチャは、RT-DETR いくつかのバリエーションに見られるように、両方の長所を活用することを目的としている。多くの場合、選択は特定のタスク、データセットのサイズ、利用可能な計算リソースに依存する。
すべて読む