深圳Yolo 视觉
深圳
立即加入
词汇表

分词 (Tokenization)

探索代币化如何将原始文本和图像转化为可供人工智能处理的数据。了解Ultralytics 等模型所采用的自然语言处理与计算机视觉技术。

分词是将原始数据流(如文本、图像或音频)分解为更小、更易管理的单元(称为词元)的算法过程。这种转换在数据预处理管道中起着关键桥梁作用,将非结构化输入转换为人工智能(AI)系统能够解读的数值格式。 计算机无法天然理解人类语言或视觉场景,必须通过数值表示才能执行计算。工程师将数据分割为令牌后,神经网络便能将这些单元映射为嵌入向量——这种向量表示形式能捕捉语义含义。若缺少这一基础步骤,机器学习模型将无法识别模式、学习语境,更无法处理现代训练所需的海量数据集

令牌化与令牌

尽管在深度学习讨论中这两个术语常被并列提及,但区分方法与结果有助于理解工作流程。

  • 分词 一个过程(动词)。它指用于分割数据的特定规则或算法集。对于文本, 这可能涉及使用NLTK或 spaCy等库来确定一个单元结束和另一个单元开始的位置。
  • 令牌 是该过程生成的个体单元,例如单个词、子词、字符或像素块。

跨领域方法

数据模态的不同会显著影响分词策略的选择,进而影响基础模型对世界的认知方式。

NLP 中的文本标记化

在自然语言处理(NLP)领域,目标是在segment 的同时保留语义。早期方法依赖于简单的技术,如通过空格分隔单词或移除停用词。然而,现代大型语言模型(LLMs)采用了更复杂的亚词算法,例如字节对编码(BPE)或词片(WordPiece)。这些算法通过迭代合并最频繁的字符对,使模型能够通过将罕见词分解为熟悉的子组件(如 字节对编码(BPE)或WordPiece。这些算法 通过迭代合并高频字符对,使模型能将罕见词汇分解为 常见子组件(如"smartphones"分解为"smart" + "phones")。该方法 在词汇量规模与复杂语言表征能力之间实现了平衡。

计算机视觉中的视觉标记化

传统上,计算机视觉(CV)模型如卷积神经网络(CNN)采用滑动窗口处理像素。视觉Transformer ViT)的出现通过将图像进行分词化处理,改变了这一范式。 图像被切分为固定尺寸的片段(例如16x16像素), 随后被展平并进行线性投影。这些"视觉标记"使模型能够利用 自注意力机制学习图像全局关系,类似于 Transformer 处理句子。

实际应用

令牌化是当今生产环境中众多人工智能应用背后默默运转的引擎。

  1. 开放词汇对象检测:先进架构YOLO 多模态模型方法。当用户输入"戴红帽的人"等提示时,系统会将文本分词并映射至与视觉数据相同的特征空间。这实现了零样本学习,使模型能够通过匹配文本分词与视觉特征,detect 未经过显式训练detect 。
  2. 生成式艺术与设计: 在文本转图像生成过程中,用户提示语会被令牌化以引导扩散过程。模型利用这些令牌来控制生成过程,确保最终图像与令牌化阶段提取的语义概念(如"日落"、"海滩")保持一致。

Python :基于令牌的检测

下面的示例演示了 ultralytics 该软件包在YOLO工作流中隐式使用文本分词功能。通过定义自定义类别,模型可对这些字符串进行分词处理,从而动态搜索特定对象。

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

对模型性能的影响

分词策略的选择直接影响 准确率与计算效率。低效的 分词可能导致自然语言处理中的"词汇表外"错误,或在图像分析中 丢失精细细节。诸如 PyTorchTensorFlow 等框架提供了灵活工具来优化这一环节。随着架构演进——例如前沿的YOLO26模型——高效的数据处理确保模型能在从高性能云端GPU到边缘设备的各类硬件上实现实时推理。管理这些复杂数据流的工作团队通常Ultralytics 来优化数据集标注、模型训练及部署流程。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入