主动学习是一种经济高效的机器学习方法,它能以更少的标签提高准确性。了解它如何改变人工智能培训!
主动学习是机器学习(ML)中一种专门的训练方法,在这种方法中,学习算法可以交互式地查询用户或其他信息源("甲骨文"),以标注新的数据点。其核心理念是,如果一个模型可以选择从哪些数据中学习,那么它就可以用更少的训练数据获得更高的准确率。这在数据标注昂贵、耗时或需要专家知识的领域尤其有价值。主动学习无需一次性对整个数据集进行标注,而是优先选择最 "有信息量 "的样本进行标注,从而使模型训练过程更加高效。
主动学习过程是循环往复的,通常被描述为 "人在回路中"的工作流程。它通常遵循以下步骤
这一过程的关键在于查询策略。常见的策略包括不确定性抽样(选择模型最不确定的实例)、按委员会查询(使用多个模型并选择它们意见不一致的实例)或估计预期模型变化。有关这些策略的详细概述,请参阅本Active Learning 调查。
在专家注释成为瓶颈的专业领域,主动学习非常有效。
重要的是,要将主动学习与其他同样利用无标记数据的学习范式区分开来:
实施主动学习通常需要将 ML 模型与标注工具集成,并管理数据工作流程。像scikit-learn这样的框架提供了一些功能,同时也有针对特定任务的专门库。Label Studio等标注软件可集成到主动学习管道中,允许标注者为查询样本提供标签。有效管理不断变化的数据集和训练有素的模型至关重要,Ultralytics HUB等平台为在整个开发生命周期内组织这些资产提供了基础架构。请访问Ultralytics GitHub 存储库,了解有关实施高级 ML 技术的更多信息。