用語集

トークン

AIモデルの構成要素であるトークンが、NLPやコンピュータ・ビジョン、感情分析や物体検出などのタスクにどのような力を発揮するのかを学ぶ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人工知能と機械学習、特に自然言語処理(NLP)、そして最近ではコンピュータ・ビジョンの領域では、「トークン」はモデルが処理するデータの最小単位を表します。トークンは、AIモデルが情報を理解し分析するための基本的な構成要素であり、それがテキストであれ、画像であれ、その他の形式のデータであれ、トークンを使用する。

トークンを理解する

トークン化とは、生のデータをより小さく、消化しやすい断片に分解するプロセスである。例えばNLPでは、テキストは単語、サブワード単位、あるいは文字にトークン化される。このプロセスは、連続的なテキストを機械学習モデルが効果的に処理できる個別の単位に変換します。データをトークン化する方法は、モデルのパフォーマンスと効率に大きな影響を与えます。

機械学習モデル、特にUltralytics YOLO で使われているような深層学習モデルは、生の非構造化データを直接処理できないため、トークンは極めて重要である。機械学習モデルは、データが数値または離散形式であることを必要とする。トークン化はブリッジの役割を果たし、複雑な入力をアルゴリズムが理解し学習できる形式に変換する。この変換は、テキスト生成、感情分析、物体検出などのタスクに不可欠である。

トークンの用途

トークンは様々なAIやMLのタスクに応用されている。具体的な例をいくつか紹介しよう:

  • 自然言語処理(NLP):NLPでは、トークンは言語モデルの主力である。例えば、感情分析を行う場合、「この映画は素晴らしかった!」のような文章は、["This", "movie", "was", "fantastic", "!"] にトークン化されるかもしれません。これらのトークンはそれぞれ、単語埋め込みなどの数値表現に変換され、モデルはそれを使ってセンチメントを理解します。GPT-4や GPT-3のような大規模な言語モデルは、テキストの処理と生成のためにトークンに大きく依存しています。プロンプト・チェイニングや プロンプト・チューニングなどの技法は、これらのモデルから望ましい出力を得るために、トークンのシーケンスを操作し最適化することを中心に設計されています。

  • コンピュータビジョン:トークンは伝統的にNLPに関連しているが、特にVision Transformers (ViT)の台頭により、最新のコンピュータビジョンモデルでますます重要になってきている。セグメント何でもモデル(SAM)のようなモデルでは、画像はしばしば視覚的トークンとみなすことができるパッチに分解される。これらの視覚的トークンは、画像セグメンテーションや 物体検出のようなタスクのために、画像の異なる部分間の関係を理解するための注意メカニズムを活用して、変換ネットワークによって処理される。のような物体検出モデルでも、「視覚的トークン」は明示的に使用されない。 Ultralytics YOLOv8のような物体検出モデルでも、ViTと同じように「視覚的トークン」を明示的に使用するわけではないが、画像をグリッドに分解し、各グリッドセルを処理するというコンセプトは、各グリッドセルが分析単位となる暗黙のトークン化の一形態とみなすことができる。

トークンを理解することは、AIモデルがどのように情報を処理するかを把握するための基本である。AIが進化し続けるにつれ、トークンとトークン化の概念は、多様なデータタイプを扱い、より洗練された効率的なモデルを構築する上で、さらに中心的な役割を果たすようになるだろう。

すべて読む