术语表

CLIP(对比语言-图像预培训)

了解 OpenAI 的 CLIP 如何通过零镜头学习、图像-文本配准和计算机视觉中的实际应用来革新人工智能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

CLIP(对比语言-图像预训练)是 OpenAI 开发的一种神经网络,可从自然语言监督中学习视觉概念。传统的计算机视觉模型是根据预先确定的固定类别集进行训练的,而 CLIP 则不同,它可以根据各种文本描述来理解图像并对其进行分类。这是通过在从互联网上搜索到的海量图像-文本对数据集上训练模型实现的,使其能够学习一个共享的表示空间,在这个空间中,图像和相应的文本描述紧密结合在一起。这种创新方法使 CLIP 能够进行 "零镜头学习",也就是说,只需理解这些类别的文字描述,它就能准确地将图像归入它在训练过程中从未见过的类别。

CLIP 如何工作

CLIP 的架构由两个主要部分组成:图像编码器和文本编码器。图像编码器通常是视觉转换器(ViT)残差网络(ResNet),用于处理图像并提取图像的视觉特征。文本编码器通常是一个类似于自然语言处理(NLP)中使用的变换器模型,用于处理相应的文本描述并提取其语义特征。在训练过程中,CLIP 会收到一批图像-文本对。该模型的目标是最大化图像编码表示与其正确文本描述之间的相似性,同时最小化图像与错误文本描述之间的相似性。这是通过一个对比损失函数来实现的,该函数鼓励模型学习一个共享的嵌入空间,在这个空间中,相关的图像和文本靠得很近,而不相关的则相距甚远。

主要特点和优势

CLIP 最显著的优势之一是其零镜头学习的能力。由于 CLIP 可以学习将图像与各种文本概念联系起来,因此它可以归纳出在训练过程中没有出现过的新类别。例如,如果 CLIP 在猫和狗的图像上进行了训练,并标注了相应的标签,那么即使它从未见过明确标注为 "戴帽子的猫 "的图像,也有可能对该图像进行分类。这种能力使 CLIP 具有很强的适应性和通用性,适用于各种计算机视觉(CV)任务。此外,CLIP 的性能往往超过在特定数据集上训练的监督模型,尤其是当这些数据集的规模或多样性有限时。这是因为 CLIP 利用了来自互联网的大量预训练数据,使其对视觉概念有了更广泛的理解。

实际应用

CLIP 的独特功能使其被广泛应用于各种实际领域。两个显著的例子包括

  1. 图像搜索和检索:CLIP 可用于构建可理解自然语言查询的强大图像搜索引擎。例如,用户可以搜索 "大海日落的图片",由 CLIP 支持的系统可以检索相关图片,即使这些图片没有明确标记这些关键字。这是通过将查询文本和数据库中的图片编码到共享的嵌入空间,并找到其嵌入最接近查询嵌入的图片来实现的。
  2. 内容管理和过滤:CLIP 可用于自动检测和过滤网上的不当或有害内容。通过理解图像和文本之间的语义关系,CLIP 可以识别与仇恨言论、暴力或其他不良内容相关的图像,即使图像本身不包含明确的视觉标记。这一功能对于社交媒体平台、在线市场和其他处理用户生成内容的平台非常有价值。

CLIP 及其他型号

虽然 CLIP 与其他多模态模型有一些相似之处,但它的突出之处在于注重对比学习和零镜头功能。视觉问题解答(VQA)系统等模型也同时处理图像和文本,但它们通常被训练来回答有关图像的特定问题,而不是学习通用的共享表示空间。同样,虽然图像字幕系统等模型可以生成图像的文本描述,但它们通常依赖于成对图像字幕数据集的监督训练,可能无法像 CLIP 那样很好地概括未见过的概念。CLIP 能够从自然语言描述中理解各种视觉概念,而无需对这些概念进行明确的训练,这使它成为人工智能和机器学习领域各种应用的强大工具。您可以在Ultralytics 博客上了解有关视觉语言模型的更多信息。

局限性和未来方向

尽管 CLIP 的功能令人印象深刻,但它也并非没有局限性。其中一个挑战是它依赖于预训练数据的质量和多样性。数据中存在的偏差会反映在模型学习到的表征中,从而可能导致不公平或不准确的预测。研究人员正在积极研究如何减少这些偏差,提高 CLIP 等模型的公平性。另一个正在进行的研究领域是提高 CLIP 理解细粒度视觉细节和复杂构图概念的能力。虽然 CLIP 擅长捕捉一般的视觉概念,但在完成需要精确空间推理或理解物体之间复杂关系的任务时,它可能会显得力不从心。未来在模型架构、训练技术和数据整理方面的进步有望解决这些局限性,并进一步增强 CLIP 等模型的能力。例如,将 CLIP 与Ultralytics YOLO 等模型整合在一起,可以为各种现实世界的应用带来更强大、更多用途的系统。您可以浏览Ultralytics 博客,了解人工智能的最新进展。

阅读全部