术语表

合奏

利用集合方法提高预测准确性!了解如何结合多个模型来提高物体检测、NLP 等方面的性能。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

在机器学习中,"集合 "方法是一种技术,它将多个单独模型的预测结果结合在一起,从而得出比任何一个单独模型都更准确、更稳健的预测结果。它的原理通常被描述为"群众的智慧",即多个不同模型的集体决策通常优于一个专门模型的决策。这种方法在人工智能(AI)的复杂任务中尤为强大,例如物体检测、图像分类和自然语言处理,在这些任务中,依靠单一视角可能会导致错误或局限性。

合奏方法的核心概念

集合方法利用多个模型(通常称为基础学习器或弱学习器)之间的多样性来减少预测误差,提高整体性能。其核心思想是,不同的模型可能会对不同的数据子集产生不同类型的错误。通过组合预测,这些误差往往可以被平均或相互抵消,从而产生一个更稳定、更通用的最终模型,在未见数据上表现良好。集合方法成功的关键是确保基础模型之间有足够的多样性。这种多样性可以通过各种策略来实现,例如使用不同的学习算法(如结合决策树和 SVM),在训练数据的不同子集上训练模型(如在 Bagging 中),或在同一算法中使用不同的超参数。

使用集合方法的好处

机器学习(ML)中,采用集合方法有几个显著优势:

  • 提高预测准确性:集合模型通常比任何单一模型都能获得更高的准确性
  • 增强鲁棒性和稳定性:最终预测对单一模型的特殊性或训练数据的变化不那么敏感。
  • 降低过拟合风险:通过平均预测结果,集合可减轻复杂模型过度拟合训练数据的趋势。

合奏方法的类型

目前有几种流行的集合技术,每种技术都有独特的模型组合方法:

  • 套袋(Bootstrap Aggregating)在训练数据的不同随机子集(替换抽取)上训练同一基础算法的多个实例,并对其预测结果取平均值。随机森林就是一个著名的例子。
  • 提升按顺序建立模型,每个新模型都侧重于纠正前一个模型的错误。例如 AdaBoost、梯度提升机(GBM)、XGBoostLightGBM
  • 堆叠(堆叠泛化)通过训练元模型(如逻辑回归)来学习如何以最佳方式组合它们的输出,从而结合多个不同基础模型(异构学习器)的预测结果。

模型组合"(Model Ensemble)一词通常与 "组合"(Ensemble)交替使用,指的是组合多个模型的相同概念。您可以通过YOLOv5 探索模型组合的策略。

集合方法的实际应用

集合方法被广泛应用于各个领域,以提高人工智能系统的性能:

  1. 计算机视觉:物体检测等任务中,使用诸如 Ultralytics YOLO等模型进行物体检测的任务中,集合可能涉及将不同增强或不同阶段(检查点)训练的模型的预测结果结合起来。这就提高了在不同天气条件或物体遮挡等挑战性场景下的检测鲁棒性,这对自动驾驶汽车安全系统等应用至关重要。
  2. 医学诊断: 医学图像分析中使用集合,将不同算法或根据不同患者数据训练的模型得出的诊断结果结合起来。例如,将CNN视觉转换器 (ViT)的输出结果结合起来,可以为检测扫描中的异常情况提供更可靠的预测,从而降低误诊风险。

集合虽然功能强大,但却增加了训练和模型部署的复杂性和计算要求。然而,在关键应用中,性能的显著提升往往能证明这些成本是合理的。Ultralytics HUB等平台可简化多个模型的管理和训练,促进创建有效的集合。

阅读全部