术语表

令牌化

了解标记化在 NLP 和 ML 中的作用!了解如何将文本分解为标记,从而增强情感分析和文本生成等人工智能任务。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

标记化是人工智能(AI)和机器学习(ML)中的一个基本预处理步骤,在自然语言处理(NLP)中尤为重要。它包括将文本序列或其他数据分解成更小的、可管理的单元,称为标记。这些标记是算法用来理解和处理信息的基本构件,可将原始输入转化为适合分析的格式。

令牌化的工作原理

标记化的核心思想是分割。对于文本数据,这通常意味着根据预定义的规则或学习模式将句子分割成单词、子单词甚至单个字符。例如,Ultralytics YOLOv8 功能强大 "这句话可以标记为 ["Ultralytics", "YOLOv8", "is", "powerful"].具体选择哪种方法取决于任务和模型结构。常见的技术包括用空白和标点符号分割,或使用更高级的方法,如 字节对编码 (BPE)WordPiece经常用于 大型语言模型 (LLM) 喜欢 伯特 以有效处理大量词汇和未知词汇。

相关性和实际应用

标记化至关重要,因为大多数 ML 模型都需要数字输入。通过将文本转换为离散的标记,我们可以将这些标记映射到嵌入等数字表示法中,从而让模型学习数据中的模式和关系。这一过程是众多人工智能应用的基础:

  1. 机器翻译: Google 翻译等服务将源语言的输入句子标记化为词块,使用复杂的神经网络(通常是Transformers)处理这些词块,然后生成目标语言的词块,最后再将其组合成句子。准确的标记化可以确保正确捕捉语言的细微差别。
  2. 情感分析: 要确定客户评论(如 "服务非常好!")的情感,首先要对文本进行标记化处理 (["The", "service", "was", "excellent", "!"]).每个 象征性 然后进行分析,通常使用其嵌入,使模型能够将整体情感分为积极、消极或中性。这对企业分析客户反馈至关重要。 进一步了解情感分析.
  3. 视觉语言模型: CLIPUltralytics YOLO等模型依靠标记化文本提示来理解用户对零镜头物体检测图像分割等任务的询问。文本标记与从图像中学习到的视觉特征相关联。

计算机视觉中的标记化

虽然这一概念传统上与 NLP 相关,但也延伸到了计算机视觉 (CV)。在视觉转换器(ViT)中,图像被分割成固定大小的片段,这些片段被视为 "视觉标记"。这些标记的处理方式与 NLP 转换器中的文本标记类似,使模型能够理解图像中的空间层次和上下文。

优势和工具

有效的标记化可以使输入数据标准化,简化模型处理过程,并有助于管理词汇量,尤其是使用子词方法时。Hugging Face Tokenizers等库和NLTK等工具包提供了强大的实现功能。Ultralytics HUB等平台通常会抽象掉数据预处理的复杂性,包括标记化,从而简化了使用以下框架构建模型的训练工作流程 PyTorchTensorFlow.了解标记化是构建和优化许多现代人工智能系统的关键。

阅读全部