用語集

トークン化

NLPとMLにおけるトークン化の威力をご覧ください!テキストをトークンに分割することで、感情分析やテキスト生成などのAIタスクがどのように強化されるかを学びます。

トークン化とは、生のテキストや画像などのデータのストリームを、トークンと呼ばれるより小さな個別の単位に分解する基本的なプロセスです。これは、ほぼすべての人工知能(AI)システムのデータ前処理パイプラインにおける重要な最初のステップです。非構造化データを標準化された形式に変換することで、トークン化は機械学習モデルがパターンを効率的に解釈、分析、学習することを可能にします。このステップなしでは、ほとんどのモデルは、現代のAIアプリケーションを動かす膨大で多様なデータを処理できません。

関連性と実世界での応用

ほとんどの深層学習アーキテクチャは、生のテキストやピクセルではなく数値入力を必要とするため、トークン化は極めて重要だ。データを離散的なトークンに変換することで、これらのトークンを埋め込みなどの数値表現にマッピングすることができる。これらの数値ベクトルは意味的な意味と関係を捉え、PyTorchや TensorFlowのようなフレームワークで構築されたモデルがデータから学習することを可能にする。この基礎的なステップは、多くのAIアプリケーションを支えている:

  1. 自然言語処理(NLP)トークン化は、ほとんどすべての自然言語処理タスクの中心です。

    • 機械翻訳: Google翻訳のようなサービスは、ソース言語の入力文をトークン化し、複雑なモデル(多くの場合、Transformerアーキテクチャに基づく)を使用してこれらのトークンを処理し、ターゲット言語のトークンを生成し、最終的に翻訳された文に組み立てられる。
    • センチメント分析:カスタマーレビューが肯定的か否定的かを判断するために、テキストはまずトークン化されます。その後、モデルはこれらのトークンを分析し、全体的なセンチメントを分類します。センチメント分析の詳細はこちら。プロンプトチューニングのようなテクニックもトークン列の操作に依存しています。開発者には、spaCyや NLTKのようなライブラリが強力なトークン化ツールを提供しています。
  2. コンピュータビジョン(CV)伝統的にNLPと関連付けられているが、その概念はコンピュータ・ビジョンにも及んでいる。

一般的なトークン化の方法

データのトークン化にはさまざまな戦略があり、それぞれにトレードオフがある。手法の選択はモデルの性能に大きな影響を与えます。

  • 単語ベースのトークン化:この方法はスペースと句読点に基づいてテキストを分割する。シンプルで直感的な反面、語彙が多く、「語彙外」の単語(トレーニング中に見たことのない単語)に苦労する。
  • 文字ベースのトークン化:この方法はテキストを個々の文字に分割する。語彙不足の問題は解決されるが、非常に長い文字列となり、高レベルの意味が失われ、モデルが単語間の関係を学習するのが難しくなる。
  • サブワード・トークン化:これは最新のNLPモデルの標準となっているハイブリッド・アプローチである。単語を意味のある小さなサブユニットに分割する。一般的な単語は単一のトークンのまま、希少な単語は複数のサブワードトークンに分割される。この方法は複雑な単語を効率的に処理し、語彙不足の問題を回避する。一般的なアルゴリズムには、Byte Pair Encoding(BPE)やWordPieceがあり、BERTや GPTなどのモデルで使用されている。

トークン化 vs トークン

トークン化」と「トークン」を区別することは重要である。

  • トークン化:データをより小さな単位に分解するプロセスを指す。言語モデルが機能するための基本的な前処理ステップ。
  • トークン:トークン化処理の結果、つまりモデルが処理する個々の単位(単語、サブワード、文字、画像パッチ)を指す。

トークン化を理解することは、AIモデルが多様なデータタイプをどのように解釈し、学習するかを把握するための基本です。データセットとトレーニングモデルの管理には、Ultralytics HUBのようなプラットフォームが使用されることが多く、データ前処理と モデルトレーニングワークフローの合理化に役立ちます。AIが進化するにつれて、トークン化の手法は適応し続け、テキスト生成から 自律走行車や 医療画像解析のような分野での複雑な視覚理解まで、より洗練されたモデルを構築する上で重要な役割を果たしています。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク