探索零点学习:一种尖端的人工智能方法,使模型能够对未见数据进行分类,彻底改变物体检测、NLP 等技术。
零点学习(Zero-Shot Learning,简称 ZSL)是机器学习(Machine Learning,简称 ML)中一个令人着迷的领域,它训练模型识别在训练过程中从未见过的对象或概念。传统的监督学习方法需要为每一个可能的类别提供大量标注示例,而 ZSL 则不同,它通过利用描述这些新类别的辅助信息,使模型能够对未见类别进行预测。这种能力对于构建适应性更强、可扩展性更高的人工智能(AI)系统至关重要,尤其是在为每个可能的类别获取标记数据不切实际或不可能的领域。
ZSL 背后的核心理念是利用共享语义空间弥合可见类和未见类之间的差距。这个空间通常依赖于高层次的描述、属性或来自文本或知识库的嵌入。在训练过程中,模型仅使用 "见过的 "类别中的示例来学习输入数据(如图像或文本)与这一语义空间之间的映射。例如,模型可以学习将马和虎("见过的 "类别)的图像与其相应的属性(如 "有蹄"、"有条纹"、"是哺乳动物")联系起来。
当出现一个未见类(如斑马)的实例时,模型会提取其特征并将其映射到学习到的语义空间中。然后,它将此映射与未见类别的语义描述(例如,描述斑马的属性 "有条纹"、"有蹄"、"是哺乳动物")进行比较。在这个空间中,语义描述最接近的类别被选为预测对象。这一过程通常涉及深度学习(DL)技术,利用卷积神经网络(CNN)等架构进行特征提取,并利用映射功能将视觉特征与语义属性联系起来,有时还利用视觉转换器(ViT)的概念或CLIP 等模型。
重要的是要将 ZSL 与相关的学习范式区分开来:
ZSL 在各个领域都具有巨大的潜力:
尽管 ZSL 前景广阔,但它也面临着一些挑战,例如中心性问题(语义空间中的一些点成为许多点的近邻)和领域偏移(已见类和未见类之间的特征和属性之间的关系不同)。研究人员正在继续探索更稳健的语义嵌入、更好的映射函数以及广义零点学习(Generalized Zero-Shot Learning,GZSL)等技术,后者的目的是在推理过程中同时识别已见和未见类别。Ultralytics HUB等平台的开发有助于将 ZSL 功能集成和部署到实际的视觉人工智能应用中。进一步的进步可能会从多模态模型中汲取灵感,这些模型本质上将视觉与语言联系在一起。