深圳Yolo 视觉
深圳
立即加入
词汇表

自监督学习

探索自监督学习如何消除人工标注需求。了解生成式与对比式自监督学习方法如何Ultralytics 。

自监督学习(SSL)是一种机器学习范式,系统通过从数据本身生成自身的监督信号来理解数据,而非依赖外部人工提供的标签。在传统 监督学习中,模型需要大量人工标注数据——例如标记为"猫"或"狗"的图像——其生产过程耗时耗资。SSL通过创建"伪任务"突破这一瓶颈:模型需预测输入数据中隐藏或缺失的部分,从而自主学习复杂任务(如 物体检测 和 分类等复杂任务所需的底层结构与特征。

自监督学习的核心机制

SSL的基本原理是掩盖或隐藏部分数据,并迫使 神经网络(NN) 进行数据重建或预测同一数据不同视图间的关联关系。该过程可生成丰富且通用的表示形式,后续可针对特定下游应用进行微调。

SSL 主要包含两种方法:

  • 生成方法:模型通过学习生成像素或单词来填补空白。在 自然语言处理(NLP) 是预测句子中的下一个单词。在计算机视觉领域,诸如 遮蔽自编码器(MAE) 会遮蔽图像的随机区域,要求模型重建缺失像素,从而迫使模型"理解"视觉上下文。
  • 对比学习:该方法通过应用数据增强技术,使模型学会区分相似与相异的数据点。 数据增强 ——例如裁剪、颜色抖动或旋转——模型学会将这些修改版本视为同一物体(正样本对),同时将其他图像视为不同物体(负样本对)。 主流框架如 SimCLR 等主流框架 均高度依赖此原理。

实际应用

自监督学习已成为构建强大 基础模型 的基石。其利用海量无标签数据的能力使其具备高度可扩展性。

  • 医学影像:获取专家标注的医学扫描数据既困难又昂贵。自监督学习(SSL)使模型能够在数千张未标注的X光片或MRI扫描图像上进行预训练,从而学习通用解剖特征。该预训练模型随后可通过少量标注样本进行微调,以实现高精度的 肿瘤检测 或疾病诊断。
  • 自动驾驶:无人驾驶汽车每天产生数TB的视频数据。超监督学习(SSL)使这些系统能够从原始视频素材中学习时间动态和空间理解,而无需逐帧标注。这有助于提升 车道检测 和障碍物规避能力,通过预测未来帧或物体运动实现。

区分SSL与相关术语

区分SSL与 无监督学习。虽然两种方法都利用无标签数据,但无监督学习通常侧重于发现隐藏模式或 分组(聚类),而无需特定的预测任务。相反,SSL将学习过程定义为 监督任务,其中标签由数据结构本身自动生成。此外, 半监督学习 结合少量标注数据与海量无标记数据,而纯SSL则在任何微调发生前,完全从无标记数据集中自主生成标签。

在Ultralytics中使用预训练权重

在Ultralytics 中,诸如 YOLO26 等模型在预训练阶段(通常在ImageNet等海量数据集上进行)显著受益于先进的训练策略,这些策略往往融入了类似自监督学习(SSL)的原理。 ImageNetCOCO。这确保当用户为特定任务部署模型时,特征提取器已具备稳健性。

用户可利用这些强大的预训练表示,通过 Ultralytics

以下是一个简洁示例,演示如何加载预训练的YOLO26模型,并利用其在初始大规模训练中习得的特征,开始在新数据集上进行微调:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (weights learned from large-scale data)
model = YOLO("yolo26n.pt")

# Fine-tune the model on a specific dataset (e.g., COCO8)
# This leverages the robust feature representations learned during pre-training
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

SSL的未来

在Meta AI等大型实验室的研究人员 Meta AIGoogle 不断完善这些技术, 安全监督学习(SSL)正在突破生成式人工智能的边界。 生成式人工智能 和计算机视觉领域不断拓展可能性的边界。 通过降低对标注数据的依赖,自监督学习正推动高性能人工智能的普及化,使小型团队也能为 野生动物保护工业检测

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入