Yolo 深圳
深セン
今すぐ参加
用語集

トークン

トークンがAIにおける情報の基本単位として機能する仕組みを学びましょう。自然言語処理(NLP)、コンピュータビジョン、YOLO26を用いたオープンボキャブラリ検出におけるその役割を探求します。

現代の人工知能の洗練されたアーキテクチャにおいて、トークンはモデルが処理する情報の基本的かつ最小単位を表す。アルゴリズムが文を解釈したり、ソフトウェアスクリプトを分析したり、画像内の物体を認識したりする前に、生の入力データはこうした離散的で標準化された要素に分解されなければならない。 この分割はデータ前処理における 極めて重要なステップであり、 構造化されていない入力を ニューラルネットワークが効率的に計算可能な数値形式に変換する。 人間が言語を思考の連続した流れとして、 あるいは画像を途切れのない視覚的シーンとして認識する一方で、 計算モデルはパターン認識や意味解析といった操作を実行するために こうした細粒度の構成要素を必要とする。

トークン vs. トークン化

機械学習の仕組みを理解するには、 データ単位とそれを生成するプロセスを区別することが不可欠です。 この区別により、Ultralytics データパイプラインを設計し、トレーニング資料を準備する際に 混乱を避けることができます。

  • トークン化これは 生データを断片に分割するアルゴリズム的処理(動詞)である。テキストの場合、 Natural Language Toolkit(NLTK)などのライブラリを用いて、 一つの単位が終わり別の単位が始まる位置を特定する処理が含まれる。
  • トークン:これは結果として得られる出力(名詞)です。単語、サブワード、画像パッチなど、最終的に埋め込みと呼ばれる数値ベクトルにマッピングされる実際のデータ断片です。

異なるAI領域におけるトークン

トークンの性質は、処理されるデータのモダリティ、特に テキスト領域と視覚領域の間で大きく異なる。

自然言語処理におけるテキスト・トークン

自然言語処理(NLP)の分野では、 トークンは大規模言語モデル(LLM)の入力となります。 初期のアプローチでは単語全体を厳密にマッピングしていたが、現代のアーキテクチャではバイトペア符号化(BPE)のようなサブワードアルゴリズムを利用する。この手法により、モデルは稀な単語を意味のある音節に分割して処理でき、語彙サイズと意味的カバレッジのバランスを取れる。例えば「unhappiness」という単語は「un」「happi」「ness」にトークン化される可能性がある。

コンピュータ・ビジョンにおける視覚的トークン

トークン化の概念は、 ビジョン・トランスフォーマー(ViT)の登場により コンピュータビジョン分野へ拡大した。従来の畳み込みネットワークが スライディングウィンドウでピクセルを処理するのとは異なり、 トランスフォーマーは画像を固定サイズのパッチ(例:16x16ピクセル)のグリッドに分割する。 各パッチは平坦化され、独立した視覚トークンとして扱われる。この手法により、モデルは自己注意機構を用いて画像内の離れた部分間の関係性を理解できるようになる。Google 当初トランスフォーマーをテキスト処理に適用した手法と類似している。

実際のアプリケーション

トークンは、無数のアプリケーションにおいて、人間のデータと機械知能の間の架け橋として機能する。

  1. オープンボキャブラリ物体検出: YOLO先進モデルは、テキストトークンと視覚特徴が相互作用するマルチモーダル手法を採用する。 ユーザーはカスタムテキストプロンプト(例:「青いヘルメット」)を入力でき、 モデルはこれをトークン化し画像内の物体と照合する。 これによりゼロショット学習が可能となり、 明示的に学習されていない物体の検出を実現する。
  2. 生成AI:チャットボットなどのテキスト生成システムでは、AIはシーケンス内の次のトークンの確率を予測することで動作する。最も可能性の高い後続トークンを反復的に選択することで、システムは一貫性のある文章や段落を構築し、自動化されたカスタマーサポートから仮想アシスタントに至るまでのツールを支えている。

Python :検出のためのテキストトークンの使用

以下のコードスニペットは、 ultralytics パッケージはテキストトークンを用いて誘導する オブジェクト検出一方、最先端の YOLO26 高速で固定クラスの推論に推奨されるYOLOアーキテクYOLO、 実行時にクラスをテキストトークンとして定義できる独自の機能を備えています。

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

トークンを理解することは、生成AIと高度な分析の領域をナビゲートする上で基本となる。 チャットボットが流暢に会話できるようにするにしても、 ビジョンシステムが微妙な物体クラスを区別できるようにするにしても、 トークンは機械知能の不可欠な通貨であり、 PyTorchのようなフレームワークで使用されている。 PyTorchTensorFlowといったフレームワークが使用する機械知能の不可欠な通貨であり続ける。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加