深圳Yolo 视觉
深圳
立即加入
词汇表

Token(令牌)

了解标记如何成为人工智能中的基本信息单元。探索它们在自然语言处理、计算机视觉以及基于YOLO26的开放词汇检测中的作用。

现代人工智能的精密架构中, 令牌代表着模型处理的基本原子信息单元。 算法在解读句子、分析软件脚本或识别图像中的物体之前, 必须将原始输入数据分解为这些离散的标准化元素。 这种分割是数据预处理的关键步骤,将非结构化输入转化为神经网络可高效计算的数值格式。人类感知语言时将其视为连续的思想流,感知图像时则视为无缝的视觉场景,而计算模型则需要这些细粒度的构建模块来执行模式识别和语义分析等操作。

Token vs. Token化

要掌握机器学习的运作机制,必须区分数据单元与生成该数据的处理过程。这种区分有助于Ultralytics 设计数据管道和准备训练材料时避免混淆。

  • 分词这是将原始数据分割为片段的算法过程(动词)。对于文本而言,这可能涉及使用诸如自然语言工具包(NLTK)等库来确定一个语义单元结束与另一个开始的位置。
  • Token:这是最终输出的结果(名词)。它代表实际的数据片段——例如单词、 子词或图像片段——这些数据最终会被映射到称为嵌入的数值向量中。

不同人工智能领域的代币

令牌的性质因所处理数据的模态而存在显著差异,尤其在文本与视觉领域之间。

NLP 中的文本标记

自然语言处理(NLP)领域, 令牌是大型语言模型(LLMs)的输入单元。 早期方法严格映射整个单词,但现代架构采用字节对编码(BPE)等亚词算法。该方法通过将罕见词拆分为有意义的音节来处理,在词汇量与语义覆盖率之间取得平衡。例如,单词"unhappiness"可能被分词为"un"、"happi"和"ness"。

计算机视觉中的视觉标记

随着视觉Transformer ViT)的出现,标记化概念已扩展至计算机视觉领域。不同于传统卷积网络通过滑动窗口处理像素,变换器将图像划分为固定尺寸的网格片段(例如16x16像素)。 每个图像块被展平处理为独立的视觉标记。这种方法使模型能够运用自注意力机制理解图像中相距较远部分之间的关联性,其原理类似于Google 最初将Transformer模型应用于文本处理的方式。

实际应用

在无数应用场景中,代币充当了人类数据与机器智能之间的桥梁。

  1. 开放词汇对象检测:先进模型YOLO多模态方法,其中文本标记与视觉特征相互作用。用户可输入自定义文本提示(例如"蓝色头盔"),模型将其标记化后与图像中的对象进行匹配。这实现了零样本学习,能够检测模型未经过显式训练的对象。
  2. 生成式人工智能:在聊天机器人等文本生成系统中,人工智能通过预测序列中下一个符号的出现概率来运作。通过反复选择最可能出现的后续符号,系统构建出连贯的句子和段落,为从自动化客户支持到虚拟助手的各类工具提供支持。

Python :使用文本令牌进行检测

以下代码片段演示了如何 ultralytics 该包使用文本令牌进行引导 物体检测尽管最先进的技术 YOLO26 推荐用于高速、固定类别的推理, YOLO架构独具特色地允许用户在运行时将类别定义为文本标记。

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

理解标记是驾驭生成式人工智能与高级分析领域的基石。无论是让聊天机器人流畅对话,还是协助视觉系统区分细微的物体类别,标记始终是机器智能的核心货币,被PyTorch等框架广泛采用。 PyTorchTensorFlow所采用的核心智能货币。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入