用語集

トークン化

NLPとAIにおけるトークン化の威力をご覧ください!テキストをトークンに分割することで、センチメント分析や分類などがどのように強化されるかを学びましょう。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

トークン化とは、テキストをトークンと呼ばれる小さな単位に分解するプロセスです。これらのトークンは、文脈や用途に応じて、個々の文字、単語、フレーズなどの小さな単位になります。トークン化は、自然言語処理(NLP)や機械学習(ML)タスクの基礎となるステップであり、コンピュータがテキストデータを効率的に処理・分析できるようにします。構造化されていないテキストを構造化されたトークンに変換することで、トークン化アルゴリズムがテキスト分類、センチメント分析、言語モデリングなどのタスクを実行しやすくなります。

AIにおけるトークン化の重要性

トークン化は、生のテキストを機械学習モデルが理解できる形式に変換するために不可欠である。NLPでは、BERTや GPTのようなモデルは、生のテキストではなく、トークンのシーケンスを処理する。これらのトークンは、埋め込み生成や注目メカニズムなど、さらなる分析のための構成要素として機能する。

さらに、トークン化はテキストを標準化し、アルゴリズムが無関係な詳細(句読点や空白など)ではなく、意味のあるパターンに集中できるようにします。このプロセスは、モデルがシーケンスの次のトークンを予測するテキスト生成や、トークンを言語間で翻訳する機械翻訳などのタスクもサポートします。

トークン化の種類

  1. 単語のトークン化:テキストを個々の単語に分割する。例えば、"Ultralytics HUB is powerful "という文章は、["Ultralytics", "HUB", "is", "powerful" ]となる。
  2. サブワードトークナイゼーション:テキストをより小さなサブワード単位に分割する。この方法は、BERTや GPT のようなモデルで一般的で、意味のあるチャンク(例えば、「powerful」を「power」と「ful」)に分割することで、珍しい単語や未知の単語を扱います。
  3. 文字のトークン化:テキストを個々の文字に分割する。例えば、"Ultralytics" は ["U", "l", "t", "r", "a", "l", "y", "t", "i", "c", "s"] となる。

それぞれの方法には利点とトレードオフがある。単語トークン化は単純だが、未知の単語で苦労する可能性がある。一方、サブワードや文字トークン化は珍しい単語を扱いやすいが、シーケンスの長さが長くなり、計算が複雑になる。

トークン化の応用

センチメント分析

センチメント分析では、トークン化はユーザーレビューやソーシャルメディアへの投稿をトークンに分割し、肯定的、否定的、または中立的なセンチメントを識別します。たとえば、「Ultralytics YOLO のスピードが好きです」のような製品レビューでは、トークン化によって、「love」、「speed」、「Ultralytics YOLO 」のようなキー・トークンが抽出され、センチメント評価に役立ちます。

テキストの分類

トークン化は、スパム検出やトピックモデリングのようなテキスト分類タスクにおける重要なステップである。スパム検出では、モデルが電子メール内のトークンを分析し、スパムと正当なメッセージを区別するパターンを識別します。Ultralytics YOLO ワークフローにおける分類タスクとその実装の詳細については、こちらをご覧ください。

言語モデル

トークン化は、GPT-4のような言語モデルの学習と活用に不可欠です。トークンはこれらのモデルの入力と出力を表し、テキストの要約質問応答、会話AIなどのタスクを可能にします。

オブジェクト検出メタデータ

コンピュータビジョンのタスクでは、トークン化はオブジェクトラベルや注釈などのメタデータを処理するために使用される。例えば、Ultralytics YOLO のような物体検出モデルは、機械学習パイプラインとの互換性を高めるために、テキストベースの注釈をトークン化することがあります。

トークン化の実際

例1:NLPの応用

自然言語理解(NLU)によるチャットボットを考えてみよう。トークン化は、"What", "'s", "the", "weather", "like", "in", "Madrid", "?" のようなトークンに変換します。これらのトークンは、関連する応答を生成するために処理される。

例2:希少語のサブワード・トークン化

ヘルスケアデータセットでは、"angioplasty "のような珍しい医療用語は標準的な語彙には含まれないことがある。サブワード・トークナイゼーションは、用語を["angio", "plasty"]に分割し、モデルが馴染みのない用語を理解し、効果的に処理できるようにします。AIのヘルスケア・アプリケーションの詳細については、こちらをご覧ください。

トークン化と関連概念

トークン化は自然言語処理において基本的なものだが、埋め込みや アテンション・メカニズムといった関連概念とは異なる。トークン化は生のテキストを処理するための準備であり、埋め込みはトークンを数値ベクトルに変換し、アテンションメカニズムはシーケンス内のトークンの重要性を決定する。

トークン化をサポートするツールとフレームワーク

  • PyTorch:トークン化は、NLPタスクのPyTorch パイプラインに統合されることが多い。
  • Ultralytics HUB: トークン化などの前処理を含め、モデルのトレーニングとデプロイを簡素化。
  • Hugging Face トランスフォーマー:最先端の言語モデル用に事前に訓練されたトークナイザーを提供。

要約すると、トークン化はAIや機械学習アプリケーションのためにテキストデータを準備する重要なステップです。トークン化の汎用性と有用性は、センチメント分析、分類、言語モデリングなど多岐にわたり、最新のAIワークフローに不可欠なプロセスとなっています。

すべて読む