术语表

零距离学习

探索零点学习:一种尖端的人工智能方法,使模型能够对未见数据进行分类,彻底改变物体检测、NLP 等技术。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

零点学习(Zero-Shot Learning,简称 ZSL)是机器学习(Machine Learning,简称 ML)中一个令人着迷的领域,它训练模型识别在训练过程中从未见过的对象或概念。传统的监督学习方法需要为每一个可能的类别提供大量标注示例,而 ZSL 则不同,它通过利用描述这些新类别的辅助信息,使模型能够对未见类别进行预测。这种能力对于构建适应性更强、可扩展性更高的人工智能(AI)系统至关重要,尤其是在为每个可能的类别获取标记数据不切实际或不可能的领域。

零距离学习如何运作

ZSL 背后的核心理念是利用共享语义空间弥合可见类和未见类之间的差距。这个空间通常依赖于高层次的描述、属性或来自文本或知识库的嵌入。在训练过程中,模型仅使用 "见过的 "类别中的示例来学习输入数据(如图像或文本)与这一语义空间之间的映射。例如,模型可以学习将马和虎("见过的 "类别)的图像与其相应的属性(如 "有蹄"、"有条纹"、"是哺乳动物")联系起来。

当出现一个未见类(如斑马)的实例时,模型会提取其特征并将其映射到学习到的语义空间中。然后,它将此映射与未见类别的语义描述(例如,描述斑马的属性 "有条纹"、"有蹄"、"是哺乳动物")进行比较。在这个空间中,语义描述最接近的类别被选为预测对象。这一过程通常涉及深度学习(DL)技术,利用卷积神经网络(CNN)等架构进行特征提取,并利用映射功能将视觉特征与语义属性联系起来,有时还利用视觉转换器(ViT)的概念或CLIP 等模型。

与类似概念的主要区别

重要的是要将 ZSL 与相关的学习范式区分开来:

  • 少量学习(FSL)FSL 旨在从每类极少量的标注示例(如 1 到 5 个)中学习新概念,而 ZSL 要求目标类的标注示例为零。了解更多有关 "少量学习"、"零点学习 "和 "迁移学习"的信息。
  • 单次学习(OSL)单次学习(OSL):FSL 的一种特殊情况,即为每个新类别提供一个标记示例。
  • 迁移学习一个更广泛的概念,即把从一项任务中获得的知识应用到不同但相关的任务中。ZSL 是迁移学习的一种形式,但特别侧重于迁移知识(通常通过语义属性),以识别完全未见过的类别。类似的模型有 Ultralytics YOLOv8等模型经常利用COCO等大型数据集的迁移学习来进行自定义训练
  • 自我监督学习(SSL)SSL 模型通过创建借口任务(例如,预测输入的屏蔽部分),从未标明的数据中学习表征。虽然 SSL 对于预训练很有用,但如果没有像 ZSL 那样的额外机制,SSL 本身并不能处理未见过的类别。

实际应用

ZSL 在各个领域都具有巨大的潜力:

  1. 计算机视觉 (CV)- 精细物体识别:在缺乏训练数据的图像中识别稀有动物、植物或特定产品模型。例如,针对普通鸟类训练的系统可以根据对鸟类羽色、喙形和栖息地的文字描述识别稀有物种,即使事先没有视觉范例。这就使系统的功能超越了只针对所见类别进行训练的标准物体检测图像分类。像YOLO这样的模型也是基于类似的思路进行开放词汇检测的。
  2. 自然语言处理 (NLP)- 主题识别和意图识别:将文档、电子邮件或用户查询归类为初始训练数据集中不存在的新兴主题或意图。例如,客户支持聊天机器人可以使用功能描述对有关新推出产品功能的查询进行分类,而不需要此类查询的明确训练示例。这就利用了GPT-4大型语言模型 (LLM)的强大功能。

挑战与未来方向

尽管 ZSL 前景广阔,但它也面临着一些挑战,例如中心性问题(语义空间中的一些点成为许多点的近邻)和领域偏移(已见类和未见类之间的特征和属性之间的关系不同)。研究人员正在继续探索更稳健的语义嵌入、更好的映射函数以及广义零点学习(Generalized Zero-Shot Learning,GZSL)等技术,后者的目的是在推理过程中同时识别已见和未见类别。Ultralytics HUB等平台的开发有助于将 ZSL 功能集成和部署到实际的视觉人工智能应用中。进一步的进步可能会从多模态模型中汲取灵感,这些模型本质上将视觉与语言联系在一起。

阅读全部