NLPとMLにおけるトークン化の威力をご覧ください!テキストをトークンに分割することで、感情分析やテキスト生成などのAIタスクがどのように強化されるかを学びます。
トークン化は、人工知能(AI)や機械学習(ML)における基本的な前処理ステップであり、特に自然言語処理(NLP)では不可欠である。これは、一連のテキストやその他のデータを、トークンと呼ばれる管理可能な小さな単位に分解することを含む。これらのトークンは、アルゴリズムが情報を理解し処理するための基本的な構成要素として機能し、文章や段落などの生の入力を機械学習モデルによる分析に適した形式に変換する。コンピュータは人間と同じようにはテキストを理解できないため、このプロセスは不可欠である。
トークン化の核となる考え方はセグメンテーションである。テキストデータの場合、これは通常、事前に定義されたルールや学習されたパターンに基づいて、文章を単語、サブワード、あるいは個々の文字に分割することを意味します。たとえば、Ultralytics YOLO11 11は強力です」という文章は、個々の単語にトークン化される可能性があります: ["Ultralytics", "YOLO11", "is", "powerful"]
.選択される具体的な方法は、タスクと使用されるモデル・アーキテクチャに大きく依存する。
一般的な手法には、空白や句読点に基づいてテキストを分割するものがある。しかし、特に大規模な語彙や学習中に見たことのない単語を扱うには、より高度な手法が必要になることが多い。バイトペアエンコーディング(BPE)やWordPieceのような技術は、単語をより小さなサブワード単位に分割する。これらはBERTや GPT-4のような大規模言語モデル(LLM)で頻繁に使用され、語彙サイズを効果的に管理し、未知の単語を優雅に処理します。トークン化戦略の選択は、モデルの性能と計算効率に大きな影響を与えます。
ほとんどのMLモデル、特にディープラーニングアーキテクチャは、生のテキストではなく数値入力を必要とするため、トークン化は非常に重要だ。テキストを個別のトークンに変換することで、これらのトークンを埋め込みなどの数値表現にマッピングすることができる。これらの数値ベクトルは、意味的な意味と関係を捉え、以下のようなフレームワークで構築されたモデルを可能にする。 PyTorchまたは TensorFlowで構築されたモデルが、データからパターンを学習できるようにする。この基礎的なステップは、数多くのAIアプリケーションを支えている:
自然言語処理(NLP):トークン化は、ほとんどすべての自然言語処理タスクの中心です。
コンピュータ・ビジョン(CV):伝統的にNLPと関連付けられているが、その概念はコンピュータビジョン(CV)にも及んでいる。
トークン化」と「トークン」を区別することは重要である。
トークン化を理解することは、AIモデルが多様なデータをどのように解釈し、学習するかを把握するための基本です。データセットとトレーニングモデルの管理には、Ultralytics HUBのようなプラットフォームが使用されることが多く、暗黙的または明示的にトークン化されたデータを含むデータ前処理と モデルトレーニングワークフローの合理化を支援します。AIが進化するにつれ、トークン化の手法は適応し続け、自律走行車や 医療画像解析のような分野で、テキスト生成から複雑な視覚理解まで、より洗練されたモデルを構築する上で重要な役割を果たしています。