术语表

令牌化

了解标记化在 NLP 和 ML 中的作用！了解如何将文本分解为标记，从而增强情感分析和文本生成等人工智能任务。

标记化是人工智能（AI）和机器学习（ML）中的一个基本预处理步骤，在自然语言处理（NLP）中尤为重要。它包括将文本序列或其他数据分解成更小的、可管理的单元，称为标记。这些标记是算法用来理解和处理信息的基本构件，可将原始输入转化为适合分析的格式。

令牌化的工作原理

标记化的核心思想是分割。对于文本数据，这通常意味着根据预定义的规则或学习模式将句子分割成单词、子单词甚至单个字符。例如，Ultralytics YOLOv8 功能强大 "这句话可以标记为 ["Ultralytics", "YOLOv8", "is", "powerful"].具体选择哪种方法取决于任务和模型结构。常见的技术包括用空白和标点符号分割，或使用更高级的方法，如字节对编码 (BPE) 或 WordPiece经常用于大型语言模型 (LLM) 喜欢伯特以有效处理大量词汇和未知词汇。

计算机视觉中的标记化

虽然这一概念传统上与 NLP 相关，但也延伸到了计算机视觉 (CV)。在视觉转换器（ViT）中，图像被分割成固定大小的片段，这些片段被视为 "视觉标记"。这些标记的处理方式与 NLP 转换器中的文本标记类似，使模型能够理解图像中的空间层次和上下文。

优势和工具

有效的标记化可以使输入数据标准化，简化模型处理过程，并有助于管理词汇量，尤其是使用子词方法时。Hugging Face Tokenizers等库和NLTK等工具包提供了强大的实现功能。Ultralytics HUB等平台通常会抽象掉数据预处理的复杂性，包括标记化，从而简化了使用以下框架构建模型的训练工作流程 PyTorch或 TensorFlow.了解标记化是构建和优化许多现代人工智能系统的关键。

令牌化

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

令牌化的工作原理

相关性和实际应用

计算机视觉中的标记化

优势和工具

阅读更多博客

加入Ultralytics 社区