术语表

主动学习

主动学习是一种经济高效的机器学习方法,它能以更少的标签提高准确性。了解它如何改变人工智能培训!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

主动学习Active Learning机器学习(ML)中的一个专门子领域,在该领域中,学习算法可以交互式地询问用户(通常称为 "oracle "或人类注释者),要求为新数据点添加标签。传统的监督学习通常需要大量的预标注数据集,而主动学习则不同,它旨在以显著减少的标注工作量实现高模型性能。它通过战略性地选择信息量最大的未标注实例进行标注来实现这一目标。在获取标注数据昂贵、耗时或需要专业知识的领域,如医学图像分析或复杂的自然语言处理(NLP)任务,这种方法尤其有价值。其核心思想是让模型指导数据标注过程,将人力集中在对提高模型准确性最有影响的地方。

主动学习如何发挥作用

主动学习过程通常遵循一个迭代循环,允许模型通过有针对性的数据逐步改进:

  1. 初始模型培训:一个模型,如 Ultralytics YOLO用于物体检测图像分割的模型,是在一个初始标注的小型数据集上进行训练的。
  2. 查询未标注数据:训练好的模型可用于对未标注数据池进行预测(推理)。
  3. 查询策略应用:查询策略分析模型的预测(例如,基于预测的置信度或不确定性),以选择信息量最大的未标记数据点--模型最不确定的数据点或有望提供最多新信息的数据点。
  4. Oracle 注释:将选定的数据点交给人工标注者(oracle)进行标注。在此,有效的数据收集和标注方法至关重要。
  5. 模型再训练:将新标注的数据添加到训练集中,并利用这个扩展数据集对模型进行再训练(或微调)。
  6. 迭代:从第 2 步开始循环往复,直到达到所需的性能水平、标注预算耗尽或没有重要信息样本为止。

查询策略

主动学习的有效性在很大程度上取决于其查询策略--用于选择下一步应标注哪些未标注数据点的算法。我们的目标是选择那些一旦标注就能最大程度提高模型性能的样本。常见的策略包括

  • 不确定性采样:选择模型预测信心最低的实例。这通常用预测概率、熵或最高预测之间的差值来衡量。
  • 委员会查询(QBC):使用一组模型。选择委员会成员对预测意见分歧最大的实例进行标记。
  • 预期模型变化:选择在已知模型参数或梯度标签的情况下,会对模型参数或梯度造成最大改变的实例。
  • 基于密度的方法:优先处理不仅不确定,而且能代表基本数据分布的实例。

Burr Settles 的 "主动学习文献调查 "等资料对各种策略进行了全面概述。

相关性和益处

主动学习大大降低了与数据标注相关的负担和成本,而数据标注往往是开发强大的深度学习(DL)模型的主要瓶颈。通过战略性地集中标注工作,它可以让团队做到以下几点

  • 用更少的数据实现更高的精度:与随机抽样相比,在相同的标记预算下,获得更好的模型性能。
  • 降低标注成本:最大限度地减少人工标注所花费的时间和资源。
  • 加速模型开发:通过优先处理最具影响力的数据,更快达到理想的性能水平。探索主动学习如何加速计算机视觉开发
  • 提高模型的鲁棒性:关注模棱两可或困难的示例有助于模型更好地泛化。

实际应用

主动学习应用于各个领域,在这些领域中,标记数据是一个限制因素:

  • 医学影像:使用YOLO 模型进行肿瘤检测等任务中,放射科专家的时间非常宝贵。主动学习会选择最模糊的扫描结果进行审查,从而优化专家资源的使用。这对于开发有效的医疗人工智能解决方案至关重要。
  • 自然语言处理(NLP):对于情感分析命名实体识别(NER)等任务,识别信息文本样本(如那些情感含糊或实体稀少的样本)进行标记可有效提高模型的准确性。来自以下平台的工具 Hugging Face等平台的工具通常都能从此类技术中获益。
  • 自动驾驶汽车:从大量未标注的驾驶数据中选择具有挑战性或罕见的驾驶场景(如异常天气条件、复杂交叉路口)进行标注,有助于提高自动驾驶系统的安全性和可靠性。
  • 卫星图像分析:通过模型查询不确定区域供专家审查,可加快识别大型卫星图像数据集中的具体特征或变化。

主动学习与相关概念

重要的是,要将主动学习与其他同样利用无标记数据的学习范式区分开来:

  • 半监督学习模型训练过程中同时使用有标签和无标签数据。与主动学习不同,它通常是被动地使用所有可用的未标记数据,而不是有选择地查询特定实例的标签。
  • 自我监督学习通过创建前置任务(如预测图像中被遮挡的部分),从无标签数据中学习表征。在预训练阶段,它不需要人工标注,而主动学习则依赖于甲骨文来获取标签。
  • 强化学习通过与环境互动,接受行动的奖励或惩罚,进行试错学习。它不像主动学习那样需要查询明确的标签。
  • 联合学习侧重于在分散设备上训练模型,同时保留本地数据,主要解决数据隐私问题。主动学习侧重于高效标签获取。这些技术有时可以结合使用。

工具和实施

实施主动学习通常需要将 ML 模型与标注工具集成,并管理数据工作流程。像scikit-learn这样的框架和库提供了一些功能,同时还有针对特定任务的专门库。标签工作室(Label Studio)等标注软件可集成到主动学习管道中,允许标注者为查询样本提供标签。平台如 DagsHub等平台提供了构建和管理这些管道的工具,这一点在他们关于DagsHub 主动学习管道的YOLO VISION 2023 演讲中已经讨论过。有效管理不断变化的数据集和训练有素的模型至关重要,Ultralytics HUB等平台为在整个开发生命周期内组织这些资产提供了基础架构。请访问Ultralytics GitHub 存储库并加入Ultralytics 社区,了解与实施高级 ML 技术相关的讨论和资源。

阅读全部