术语表

对比学习

发现对比学习的威力,这是一种自监督技术,可利用最少的标记数据实现稳健的数据表示。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

对比学习是自我监督学习中的一种强大方法,在这种方法中,模型无需依赖标记数据就能学会识别相似和不相似的数据点。这种方法包括训练一个模型,通过正对与负对的对比来理解不同数据样本之间的关系。本质上,该模型学会将相似数据点的表征拉到一起,同时将不相似数据点的表征推开。事实证明,这种技术在计算机视觉、自然语言处理(NLP)和音频处理等多个领域都非常有效。通过学习丰富而稳健的数据表示,对比学习能让模型即使在标注数据有限的情况下也能很好地完成下游任务,因此在标注数据稀缺或获取成本高昂的情况下,对比学习是一种非常有价值的工具。

对比学习的关键概念

对比学习围绕着比较和对比不同数据样本以学习有意义的表征这一理念展开。主要使用两类数据对:

  • 正对:由两个相似或相关的数据样本组成。例如,在图像分析中,正对可能是同一图像的两个不同增强视图,如旋转或裁剪版本。
  • 负对:它们由两个不相似或不相关的数据样本组成。继续以图像为例,负对可以是来自两张不同图像的增强视图。

我们的目标是训练模型,使正配对的表征在嵌入空间中彼此接近,而负配对的表征则相距甚远。要做到这一点,就要尽量减小正向配对之间的距离,尽量增大负向配对之间的距离。

对比学习与监督学习

虽然对比学习和监督学习的目的都是训练模型以做出准确预测,但它们在方法和要求上有很大不同。监督学习依赖于标签数据集,其中每个数据点都与特定标签或目标变量相关联。模型根据这些标签示例学习如何将输入映射到输出。相比之下,对比学习属于自监督学习(self-supervised learning)的范畴,是无监督学习的一个子集,模型从数据本身学习,无需明确的标签。这使得对比学习在标签数据有限或不可用时特别有用。

对比学习与半监督学习

对比学习(Contrastive learning)和半监督学习(semi-supervised learning)都是在标记数据稀缺的情况下提高模型性能的技术,但它们是通过不同的机制实现的。半监督学习在训练过程中结合使用标记数据和非标记数据。模型以传统的监督方式从标注数据中学习,同时也利用未标注数据来更好地理解底层数据结构。另一方面,对比学习只侧重于通过对比相似和不相似的样本,从未标明的数据中学习表征。半监督学习可以从一些标签数据中获益,而对比学习则完全不需要任何标签,而是依靠数据本身的内在关系。

对比学习的应用

对比学习在广泛的应用领域取得了显著的成功:

  • 计算机视觉计算机视觉领域,对比学习用于学习稳健的图像表征。例如,通过训练一个模型来识别同一图像的不同增强视图是否相似,该模型就能学会关注基本特征,同时忽略无关的变化。这些学习到的表征可用于物体检测图像分类图像分割等下游任务。
  • 自然语言处理:对比学习在 NLP 领域也取得了长足进步。可以训练模型来区分相似和不相似的句子或文档,从而提高文本分类情感分析问题解答等任务的性能。
  • 音频处理:在音频处理中,对比学习可用于学习音频信号的表征。例如,可以训练一个模型,将同一音频片段中的不同片段识别为相似片段,同时将不同片段中的不同片段区分为不同片段。这些表征可以增强语音识别和扬声器识别等任务。

对比学习在现实世界中的应用实例

例 1:利用 SimCLR 学习图像表示法

SimCLR(视觉表征对比学习的简单框架)是一个广受认可的框架,它展示了图像表征对比学习的力量。SimCLR 的工作原理是在成对的增强图像上训练一个模型。批量图像中的每张图像都会被转换成两种不同的视图,并使用随机裁剪、调整大小和色彩失真等增强方法。这些增强视图形成正对,而来自不同图像的视图形成负对。模型通常是卷积神经网络 (CNN),通过学习为正图像对生成相似的嵌入,为负图像对生成不相似的嵌入。训练完成后,模型就能生成高质量的图像表征,这些图像表征既能捕捉基本特征,又不受所应用的特定增强技术的影响。这些表征可以显著提高各种下游计算机视觉任务的性能。在原始研究论文中了解有关 SimCLR 的更多信息。

示例 2:医学图像分析

对比学习在医学图像分析中大有可为,尤其是在标注医疗数据稀缺的情况下。例如,可以训练一个模型来区分同一医学扫描(如 MRI 或 CT 扫描)的不同视图或切片,将其视为相似,而将不同患者的扫描视为不同。这种方法可以让模型学习医学图像的稳健表征,而无需依赖大量的手动注释。这些学习到的表征可用于提高诊断任务的准确性和效率,如异常检测、疾病分类和解剖结构分割。通过利用对比学习,医学成像系统可以用较少的标注数据获得更好的性能,从而解决该领域的一个关键瓶颈。在本研究论文中了解有关对比学习在医学成像中应用的更多信息。

阅读全部