用語集

トークン化

NLPとMLにおけるトークン化の威力をご覧ください!テキストをトークンに分割することで、感情分析やテキスト生成などのAIタスクがどのように強化されるかを学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

トークン化は、人工知能(AI)や機械学習(ML)における基本的な前処理ステップであり、特に自然言語処理(NLP)では不可欠である。これは、一連のテキストやその他のデータを、トークンと呼ばれる管理可能な小さな単位に分解することを含む。これらのトークンは、アルゴリズムが情報を理解し処理するための基本的な構成要素として機能し、生の入力を分析に適した形式に変換する。

トークン化の仕組み

トークン化の核となる考え方はセグメンテーションである。テキストデータの場合、これは通常、事前に定義されたルールや学習されたパターンに基づいて、文章を単語、サブワード、あるいは個々の文字に分割することを意味します。たとえば、Ultralytics YOLOv8 は強力です」という文章は、次のようにトークン化されます: ["Ultralytics", "YOLOv8", "is", "powerful"].選択される具体的な手法は、タスクとモデル・アーキテクチャに依存する。一般的な手法としては、空白や句読点で分割する方法や、次のような高度な手法を使う方法があります。 バイトペアエンコーディング(BPE) または ワードピースでよく使われる。 大規模言語モデル(LLM) ような バート 大量の語彙や未知の単語を効果的に扱うことができる。

関連性と実世界での応用

ほとんどのMLモデルは数値入力を必要とするため、トークン化は不可欠である。テキストを離散的なトークンに変換することで、これらのトークンをエンベッディングのような数値表現にマッピングすることができ、モデルがデータ内のパターンと関係を学習できるようになる。このプロセスは、多くのAIアプリケーションを支えている:

  1. 機械翻訳: Google 翻訳のようなサービスは、ソース言語の入力文をトークンにトークン化し、複雑なニューラルネットワーク(多くの場合Transformers)を使用してこれらのトークンを処理し、ターゲット言語のトークンを生成し、最終的に文章に組み戻します。正確なトークン化によって、言語的なニュアンスが正しく捉えられる。
  2. センチメント分析: サービスが素晴らしかった!」のようなカスタマーレビューのセンチメントを決定するために、テキストはまずトークン化される(["The", "service", "was", "excellent", "!"]).それぞれ トークン 次に、多くの場合その埋め込みを使用して分析され、モデルによって全体的なセンチメントを肯定的、否定的、または中立的に分類することができます。これは、顧客のフィードバックを分析するビジネスにとって非常に重要です。 センチメント分析についてもっと知る.
  3. 視覚言語モデル: CLIPや Ultralytics YOLOようなモデルは、ゼロショット物体検出や 画像セグメンテーションのようなタスクのためのユーザークエリを理解するために、テキストプロンプトをトークン化することに依存している。テキストトークンは、画像から学習された視覚的特徴とリンクされます。

コンピュータ・ビジョンにおけるトークン化

従来はNLPに関連していたが、この概念はコンピュータビジョン(CV)にも広がっている。視覚トランスフォーマー(ViT)では、画像は固定サイズのパッチに分割され、「視覚トークン」として扱われる。これらのトークンは、NLPトランスフォーマーにおけるテキストトークンと同様に処理され、画像内の空間階層とコンテキストを理解するモデルを可能にする。

メリットとツール

効果的なトークン化は、入力データを標準化し、モデルの処理を簡素化し、特にサブワード方式では語彙サイズの管理に役立つ。Hugging Face TokenizersのようなライブラリやNLTKのようなツールキットは、堅牢な実装を提供します。Ultralytics HUBのようなプラットフォームは、トークン化を含むデータ前処理の複雑さを抽象化し、以下のようなフレームワークで構築されたモデルのトレーニングのワークフローを合理化します。 PyTorchまたは TensorFlow.トークン化を理解することは、多くの最新のAIシステムを構築し最適化するための鍵となります。

すべて読む