术语表

主动学习

主动学习是一种经济高效的机器学习方法,它能以更少的标签提高准确性。了解它如何改变人工智能培训!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

主动学习是机器学习中的一种专门方法,算法在选择学习数据时发挥着积极作用。传统的监督学习依赖于完全标记的数据集,而主动学习则不同,它会智能地查询特定数据点上的标签,并认为这些标签最有参考价值。这种有针对性的方法能让模型在显著减少标注示例的情况下达到较高的准确率,从而使其成为一种经济高效的机器学习模型训练策略,尤其是在处理大量无标注数据集时。

主动学习如何发挥作用

在主动学习过程中,模型会与甲骨文(通常是人类注释者)迭代交互,为最有价值的数据点申请标签。这一过程一般遵循以下步骤

  1. 初始训练:模型最初在一小部分标注数据集上进行训练。
  2. 不确定性采样:模型会找出它对正确标签最不确定的数据点。有多种量化不确定性的策略,例如查询预测置信度最低的实例或集合中不同模型分歧最大的实例。
  3. 查询:模型查询所选数据点的标签。
  4. 模型更新:将新标注的数据添加到训练集中,然后重新训练模型。
  5. 迭代:重复步骤 2-4,直到达到所需的精确度水平或用完标签预算。

当标注数据昂贵、耗时或需要专业知识时,主动学习尤其有用。通过战略性地选择要标注的数据点,主动学习可以最大限度地减少标注工作,同时最大限度地提高模型的性能。

主动学习的主要优势

与传统的监督式学习相比,主动学习具有多项优势:

  • 降低标注成本:通过将注意力集中在信息量最大的数据点上,主动学习大大减少了训练高性能模型所需的标记数据量。
  • 更快的训练:只需较少的标注示例,就能大大缩短训练时间,尤其是复杂模型的训练时间。
  • 提高模型准确性:与在随机选择的标注数据上训练的模型相比,主动学习通常能带来更好的模型性能,因为它能优先处理最具挑战性和信息量最大的实例。
  • 高效利用资源:主动学习可最大限度地减少标注信息量较少的数据点所花费的精力,从而优化资源的使用。

主动学习在现实世界中的应用

主动学习可应用于标注数据稀缺或获取成本高昂的各种领域。下面是两个具体的例子:

医学影像分析

医学图像分析中,从医学专家处获取注释可能既费钱又费时。主动学习可用于识别需要专家标注的最关键医学图像,例如那些特征模糊或病情罕见的图像。这种有针对性的方法可以用较少的标注图像开发出准确的诊断模型,从而加速开发人工智能驱动的医疗工具。

自动驾驶汽车中的物体探测

训练自动驾驶车辆的物体检测模型需要大量代表不同驾驶场景的标注数据。主动学习可帮助优先标注对模型最具挑战性的数据点,如异常照明条件、遮挡物体或罕见交通状况。这能确保模型在信息量最大的数据上得到训练,从而提高自动驾驶系统的安全性和可靠性。这只是计算机视觉自动驾驶汽车中的众多应用之一。

主动学习与其他学习范式的比较

必须将主动学习与其他相关的学习范式区分开来:

  • 监督学习:在传统的监督学习中,模型是在带有完整标签的固定数据集上进行训练的。而主动学习则是在训练过程中动态选择数据点进行标注。
  • 半监督学习: 半监督学习利用标记和非标记数据进行训练。虽然主动学习和半监督学习都旨在利用无标签数据,但主动学习会主动查询标签,而半监督学习通常使用无标签数据来提高模型对底层数据分布的理解。
  • 强化学习 强化学习是指代理通过与环境互动,在尝试和错误中学习。与主动学习不同的是,强化学习的重点是学习基于奖惩的最优行动。

主动学习和Ultralytics

Ultralytics 提供最先进的物体检测解决方案,包括功能强大的Ultralytics YOLO 模型。虽然Ultralytics 目前并不直接支持主动学习工作流,但可以利用YOLO 模型生成的输出和见解来实施主动学习策略。例如,模型对物体检测的置信度分数可用于识别不确定的标注实例。

此外,Ultralytics 还提供了一套用于训练、验证和部署YOLO 模型的工具和资源。这些工具可以集成到定制的主动学习管道中,以简化物体检测系统的开发。您可以在Ultralytics 文档页面上进一步了解这些功能。

主动学习是高效训练机器学习模型的强大范例,尤其是在标记数据稀缺或昂贵的情况下。通过智能地选择信息量最大的数据点进行标注,主动学习可以降低成本、加快训练速度并提高模型的准确性。随着各行各业对人工智能解决方案的需求不断增长,主动学习将在开发稳健高效的机器学习系统方面发挥越来越重要的作用。

阅读全部