术语表

半监督学习

了解半监督学习如何结合已标记和未标记数据来增强人工智能模型、降低标记成本并提高准确性。

半监督学习(SSL)是一种机器学习(ML)技术,它在监督学习无监督学习之间架起了一座桥梁。它利用少量标记数据和大量未标记数据来提高学习的准确性。在现实世界的许多场景中,获取未标记数据的成本并不高,但数据标记的过程却既费钱又费时。SSL 解决了这一难题,它允许模型在较小的标注集提供的结构和信息的指导下,从大量未标注示例中学习。这种方法在深度学习(DL)中尤为强大,因为深度学习模型需要庞大的数据集才能实现高性能。

半监督学习的工作原理

SSL 背后的核心理念是使用标注数据建立初始模型,然后使用该模型对未标注数据进行预测。模型中最有把握的预测结果会被视为 "伪标签",并添加到训练集中。然后根据原始标签和高置信度伪标签的组合对模型进行再训练。这种迭代过程可以让模型学习整个数据集的底层结构,而不仅仅是贴标签的一小部分。

常见的 SSL 技术包括

  • 一致性正则化:这种方法强调的是,即使输入数据受到轻微扰动,模型的预测结果也应保持一致。例如,数据稍有增加的图像应产生相同的分类。
  • 生成模型: 生成对抗网络(GANs)等技术可以学习生成与真实数据分布相似的数据,从而帮助更好地定义类别之间的决策边界。
  • 基于图的方法:这些方法将数据点表示为图中的节点,并根据节点的邻近性或相似性将标签从已标记节点传播到未标记节点。技术概述可参见学术调查

实际应用

SSL 在标签成为瓶颈的领域非常有效。两个突出的例子包括

  1. 医学图像分析对核磁共振成像或 CT 等医学扫描图像进行标记以检测肿瘤需要放射科专家,而且费用非常昂贵。使用 SSL,可以在几百张标注扫描图像上训练模型,然后使用医院档案中成千上万张未标注的扫描图像完善模型。这样就能开发出强大的图像分类分割模型,大大减少了人工工作量。
  2. 网络内容和文档分类:手动对数十亿网页、新闻文章或客户评论进行分类是不切实际的。SSL 可以使用人工分类的小型文档集来训练初始文本分类器。然后,该模型会对大量未标注的文档进行分类,并利用自身的预测结果不断改进情感分析或主题分类等任务。

与其他学习范式的比较

必须将 SSL 与相关的人工智能(AI)概念区分开来:

  • 自我监督学习(SSL)虽然缩写相同,但自我监督学习却有所不同。它是一种无监督学习,通过借口任务(例如,预测句子中的屏蔽词)从数据本身生成标签。它不使用任何人工标注的数据,而半监督学习则需要一个小的、明确标注的数据集来指导模型训练过程。
  • 主动学习这种技术也旨在降低标注成本。不过,主动学习模型不是使用所有未标注的数据,而是智能地询问人类标注者,以标注信息量最大的数据点。相比之下,SSL 通常在训练过程中利用未标注的数据,而不直接与人交互。
  • 迁移学习这包括使用一个在大型数据集(如ImageNet)上预先训练好的模型,然后在一个较小的特定任务数据集上进行微调。虽然两者都利用了现有知识,但 SSL 是通过目标任务本身的未标记数据进行学习,而迁移学习则是利用来自不同任务(虽然通常是相关任务)的知识。

工具和培训

许多现代深度学习(DL)框架,包括PyTorchPyTorch 官方网站)和TensorFlow(TensorFlow 官方网站),都提供了实现 SSL 算法的功能或可对其进行调整。Scikit-learn 等库提供了一些 SSL 方法Ultralytics HUB等平台简化了这一过程,便于管理可能包含标记和非标记混合数据的数据集,简化了旨在利用此类数据结构的模型的训练部署。SSL 方面的研究在不断发展,其成果经常在NeurIPSICML 等大型人工智能会议上发表。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板