术语表

自我监督学习

了解自监督学习如何利用无标记数据进行高效训练,从而改变计算机视觉、NLP 等领域的人工智能。

自监督学习(Self-Supervised Learning,简称 SSL)是一种机器学习技术,它允许模型从大量无标签数据中学习。SSL 不依赖于人类提供的标签,而是通过创建和解决 "借口任务",从数据本身自动生成标签。这一过程迫使模型学习有意义的基本模式和数据特征,如图像中的纹理和形状或文本中的语法结构。这些学习到的特征打下了坚实的基础,使模型在微调阶段能够在下游任务中使用更少的标注数据完成出色的任务。SSL 弥补了完全监督学习与纯粹无监督学习之间的差距,前者对数据要求较高,而后者的指导性较弱。

自我监督学习如何运作

SSL 背后的核心理念是借口任务--模型必须解决的自创问题。该任务的标签直接来自输入数据。通过解决借口任务,神经网络可以学习到有价值的表征或嵌入,从而捕捉到数据的基本特征。

计算机视觉中常见的借口任务包括

  • 预测图像旋转:向模型展示一幅随机旋转(如 0、90、180 或 270 度)的图像,模型必须预测旋转角度。要做到这一点,模型必须识别物体的原始方向。
  • 图像涂抹:图像的一部分被遮挡或移除,模型必须预测缺失的补丁。这有助于模型了解图像的上下文和纹理。
  • 对比学习:教导模型将相似(增强)图像的表征拉近,将不同图像的表征推远。SimCLR等框架就是这种方法的流行范例。

这种在无标签数据上进行的预训练,可以产生稳健的模型权重,并以此为起点,完成更多特定任务。

SSL 与其他学习范式的比较

将 SSL 与相关的机器学习范式区分开来至关重要:

  • 监督学习:完全依赖于标签数据,每个输入都与正确的输出配对。而 SSL 则相反,它能从数据本身生成自己的标签,从而大大减少了人工标注数据的需要。
  • 无监督学习:目的是在无标签数据中寻找模式(如类)或降低维度,而无需预定义的前置任务。虽然 SSL 与无监督学习一样使用无标记数据,但它的不同之处在于,通过借口任务创建明确的监督信号来指导表征学习。
  • 半监督学习:结合使用少量标记数据和大量未标记数据。SSL 预训练通常是半监督微调前的一个初步步骤。
  • 主动学习:侧重于从未标明的数据池中智能地选择信息量最大的数据点,由人工进行标注。SSL 从所有未标记的数据中学习,无需人工干预。在以数据为中心的人工智能工作流程中,这两种方法可以互为补充。

实际应用

SSL 在各个领域的人工智能 (AI)能力都得到了大幅提升:

  1. 推动计算机视觉模型的发展:通过 SSL 预训练,Ultralytics YOLO等模型可以从海量无标记图像数据集中学习强大的视觉特征,然后再进行微调,以完成自动驾驶汽车中的物体检测医学图像分析等任务。在模型训练过程中,使用 SSL 得出的预训练权重往往能带来更好的性能和更快的收敛速度。
  2. 为大型语言模型(LLM)提供动力: GPT-4BERT等基础模型在大量文本语料的预训练阶段严重依赖 SSL 前置任务(如屏蔽语言建模)。这使它们能够理解语言结构、语法和上下文,为从复杂的聊天机器人机器翻译文本摘要等各种应用提供动力。

SSL 大大降低了对昂贵的标记数据集的依赖,使强大的人工智能模型的开发平民化。PyTorchTensorFlow 等工具以及Ultralytics HUB 等平台提供了利用 SSL 技术构建和部署尖端人工智能解决方案的环境。您可以在NeurIPSICML 等顶级人工智能会议上找到有关 SSL 的最新研究成果。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板