深圳Yolo 视觉
深圳
立即加入
词汇表

半监督学习

探索半监督学习如何结合标注数据与非标注数据来提升模型准确率。学习Ultralytics 实现半监督学习工作流。

半监督学习(SSL)是机器学习(ML)中一种战略范式,它在两种传统训练方法之间架起桥梁。监督学习完全依赖于完整标注的数据集,而无监督学习则试图在没有标签的情况下寻找数据中的模式。半监督学习通过将少量标注数据与大量未标注数据相结合来运作。 该方法在实际计算机视觉(CV)场景中尤为重要:原始图像(如安防摄像头或卫星视频)的采集成本较低,但人工专家的数据标注过程却耗时耗力且成本高昂。 通过有效利用未标注样本中隐藏的结构,监督学习(SSL)能在无需耗费大量标注预算的情况下,显著提升模型准确度与泛化能力。

半监督学习的核心机制

SSL的主要目标是将标记样本集中的信息传播到更大的无标签数据集。这使得神经网络能够学习穿过数据低密度区域的决策边界,从而实现更稳健的分类或检测。

两种流行技术驱动着大多数半监督工作流程:

  • 伪标签法:该方法首先利用有限的标注数据训练模型,随后将模型用于对未标注数据进行推理。当预测结果超过特定置信阈值时,则将其视为"伪标签"或真实标签。这些置信度高的预测结果会被添加到训练数据中,模型经重新训练后性能得以迭代提升。
  • 一致性正则化:该技术依赖于数据增强。其核心思想在于,模型对原始图像及其轻微修改(增强)版本应输出相似的预测结果。通过最小化原始图像与增强版本之间的预测差异,模型学会聚焦于目标的核心特征而非噪声,从而提升其处理过拟合问题的能力。

YOLO的实际应用

以下Python 使用 ultralytics 包实现的简单伪标签标注工作流。在此,我们先在小型数据集上训练 YOLO26模型,随后将其用于为未标注图像目录生成 标签。

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train initially on a small available labeled dataset
model.train(data="coco8.yaml", epochs=10)

# Run inference on unlabeled data to generate pseudo-labels
# Setting save_txt=True saves the detections as text files for future training
results = model.predict(source="./unlabeled_images", save_txt=True, conf=0.85)

实际应用

半监督学习正在改变那些数据丰富但专业知识稀缺的行业。

  • 医学影像: 在医疗人工智能领域,获取扫描图像(X光、MRI)是标准流程,但让持证放射科医生逐像素标注以检测肿瘤的成本高得令人望而却步。自监督学习(SSL)使研究人员仅需少量专家标注病例即可训练高性能模型,通过利用数千份存档扫描图像来优化模型对生物结构的理解。
  • 自动驾驶:自动驾驶汽车公司每天从车队车辆中收集数千亿字节的视频数据。为每个帧进行标注以实现目标检测 和语义分割是不可能的。通过监督学习(SSL),系统能够从绝大多数未标注的驾驶时长中学习,从而更好地理解复杂的道路环境、天气状况和罕见的边缘案例。

区分相关概念

要有效部署人工智能解决方案,关键在于理解SSL与类似策略的差异:

  • 主动学习相比:虽然两者都处理无标签数据,但其标注方式存在差异。监督式自学习(SSL)基于模型预测自动分配标签。而主动学习则识别最"令人困惑"或不确定的数据点,明确要求人工介入进行标注,从而优化人力投入而非完全剔除这些数据点。
  • 迁移学习对比: 迁移学习是指将模型预先训练在庞大的外部数据集(如 ImageNet)进行预训练,然后针对特定任务进行微调。 而监督式自监督学习则侧重于在训练过程中直接利用特定数据集分布中未标注的部分。
  • 与自监督学习的区别 尽管名称相似,自监督学习通常指"伪监督任务"(如解决图像片段拼图),其中数据无需外部标签即可生成自身的监督信号。 而监督式自监督学习(SSL)则特指使用较小规模的验证标签集来引导该过程。

工具和未来展望

随着深度学习(DL)模型规模的不断扩大,数据利用效率变得至关重要。现代框架如PyTorch PyTorchTensorFlow 为这些高级训练循环提供了计算后端。 此外Ultralytics 数据集管理生命周期。通过运用自动标注等功能,团队能更轻松地实施半监督工作流,将原始数据快速转化为可投入生产的模型权重这种MLOps领域的演进,持续降低了构建高精度视觉系统的技术门槛。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入