术语表

主动学习

主动学习是一种经济高效的机器学习方法,它能以更少的标签提高准确性。了解它如何改变人工智能培训!

主动学习是机器学习(ML)中一种专门的训练方法,在这种方法中,学习算法可以交互式地查询用户或其他信息源("甲骨文"),以标注新的数据点。其核心理念是,如果一个模型可以选择从哪些数据中学习,那么它就可以用更少的训练数据获得更高的准确率。这在数据标注昂贵、耗时或需要专家知识的领域尤其有价值。主动学习无需一次性对整个数据集进行标注,而是优先选择最 "有信息量 "的样本进行标注,从而使模型训练过程更加高效。

主动学习如何发挥作用

主动学习过程是循环往复的,通常被描述为 "人在回路中"的工作流程。它通常遵循以下步骤

  1. 初始模型训练:一个模型(如Ultralytics YOLO11检测器)首先要在一个小型、初始标注的数据集上进行训练。
  2. 查询未标注数据:然后利用部分训练好的模型对大量未标注数据进行预测。根据这些预测,模型会选择它最 "不确定 "的样本子集。
  3. 人工标注:将这些不确定的样本提交给人类专家(oracle),由其提供正确的标签。
  4. 数据集扩充:将新标记的样本添加到训练集中。
  5. 重新训练:在更新后的更大数据集上重新训练模型。如此循环往复,直到模型的性能达到预期阈值或标注预算耗尽为止。

这一过程的关键在于查询策略。常见的策略包括不确定性抽样(选择模型最不确定的实例)、按委员会查询(使用多个模型并选择它们意见不一致的实例)或估计预期模型变化。有关这些策略的详细概述,请参阅本Active Learning 调查

实际应用

在专家注释成为瓶颈的专业领域,主动学习非常有效。

  • 医学影像分析:在训练人工智能从医学扫描中检测癌症等疾病时,可能会有数百万张图像可用,但放射科医生的时间有限。主动学习系统可以找出最模糊或最罕见的病例进行审查,而不是让他们随意标注图像。这样,专家的精力就会集中在最需要的地方,从而加快了脑肿瘤检测等任务的高精度模型的开发。该领域的研究表明,标注工作量大大减少,详情见生物医学图像分割研究。
  • 自动驾驶自动驾驶汽车中的感知系统必须在涵盖无数驾驶场景的庞大而多样的数据集上进行训练。主动学习可以从收集到的驾驶数据中识别出 "边缘情况",例如被障碍物部分遮挡的行人或异常的天气条件,而当前的物体检测模型却很难处理这些情况。通过优先对这些具有挑战性的场景进行标注,开发人员可以更有效地提高模型的鲁棒性和安全性。

主动学习与相关概念

重要的是,要将主动学习与其他同样利用无标记数据的学习范式区分开来:

  • 半监督学习:在训练过程中同时使用有标签和无标签数据。与主动学习不同,它通常被动地使用所有可用的未标记数据,而不是有选择地查询特定实例的标签。
  • 自我监督学习:通过创建前置任务(如预测图像中被遮挡的部分),从未标明的数据中学习表征。在预训练阶段,它不需要人工标注,而主动学习则需要依赖甲骨文来获取标签。DeepMind 在这一领域进行了广泛的探索
  • 强化学习:通过与环境互动、接受行动的奖励或惩罚来试错学习。它不像主动学习那样需要查询明确的标签。
  • 联合学习:侧重于在分散设备上训练模型,同时保留本地数据,主要解决数据隐私问题。主动学习侧重于高效标签获取。这些技术有时可以结合使用。

工具和实施

实施主动学习通常需要将 ML 模型与标注工具集成,并管理数据工作流程。像scikit-learn这样的框架提供了一些功能,同时也有针对特定任务的专门库。Label Studio等标注软件可集成到主动学习管道中,允许标注者为查询样本提供标签。有效管理不断变化的数据集和训练有素的模型至关重要,Ultralytics HUB等平台为在整个开发生命周期内组织这些资产提供了基础架构。请访问Ultralytics GitHub 存储库,了解有关实施高级 ML 技术的更多信息。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板