用語集

トークン化

NLPとMLにおけるトークン化の威力をご覧ください！テキストをトークンに分割することで、感情分析やテキスト生成などのAIタスクがどのように強化されるかを学びます。

トークン化とは、生のテキストや画像などのデータのストリームを、トークンと呼ばれるより小さな個別の単位に分解する基本的なプロセスです。これは、ほぼすべての人工知能（AI）システムのデータ前処理パイプラインにおける重要な最初のステップです。非構造化データを標準化された形式に変換することで、トークン化は機械学習モデルがパターンを効率的に解釈、分析、学習することを可能にします。このステップなしでは、ほとんどのモデルは、現代のAIアプリケーションを動かす膨大で多様なデータを処理できません。

一般的なトークン化の方法

データのトークン化にはさまざまな戦略があり、それぞれにトレードオフがある。手法の選択はモデルの性能に大きな影響を与えます。

単語ベースのトークン化：この方法はスペースと句読点に基づいてテキストを分割する。シンプルで直感的な反面、語彙が多く、「語彙外」の単語（トレーニング中に見たことのない単語）に苦労する。
文字ベースのトークン化：この方法はテキストを個々の文字に分割する。語彙不足の問題は解決されるが、非常に長い文字列となり、高レベルの意味が失われ、モデルが単語間の関係を学習するのが難しくなる。
サブワード・トークン化：これは最新のNLPモデルの標準となっているハイブリッド・アプローチである。単語を意味のある小さなサブユニットに分割する。一般的な単語は単一のトークンのまま、希少な単語は複数のサブワードトークンに分割される。この方法は複雑な単語を効率的に処理し、語彙不足の問題を回避する。一般的なアルゴリズムには、Byte Pair Encoding（BPE）やWordPieceがあり、BERTや GPTなどのモデルで使用されている。

トークン化 vs トークン

トークン化」と「トークン」を区別することは重要である。

トークン化：データをより小さな単位に分解するプロセスを指す。言語モデルが機能するための基本的な前処理ステップ。
トークン：トークン化処理の結果、つまりモデルが処理する個々の単位（単語、サブワード、文字、画像パッチ）を指す。

トークン化を理解することは、AIモデルが多様なデータタイプをどのように解釈し、学習するかを把握するための基本です。データセットとトレーニングモデルの管理には、Ultralytics HUBのようなプラットフォームが使用されることが多く、データ前処理とモデルトレーニングワークフローの合理化に役立ちます。AIが進化するにつれて、トークン化の手法は適応し続け、テキスト生成から自律走行車や医療画像解析のような分野での複雑な視覚理解まで、より洗練されたモデルを構築する上で重要な役割を果たしています。

トークン化

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

Ultralytics YOLOでAIモデルを数秒でトレーニング

Ultralytics HUBでYOLOモデルを簡単にトレーニング

関連性と実世界での応用

一般的なトークン化の方法

トークン化 vs トークン

このカテゴリの続きを読む

アディティブ・マニュファクチャリングを理解する技術と使用例

Ultralytics YOLO11による空港地上業務のモニタリング

製造業におけるロボティクスの進化と未来

Ultralyticsコミュニティに参加する