利用主成分分析 (PCA) 简化高维数据。立即提升人工智能、ML 模型和数据可视化效率!
主成分分析(PCA)是机器学习(ML)中降维的基本技术。其主要目标是简化高维数据的复杂性,同时尽可能多地保留原始信息(方差)。为此,它将原始变量集转化为一组新的、更小的不相关变量集,称为 "主成分"。这些分量是有序排列的,因此前几个分量保留了原始数据集中的大部分变异。这使得 PCA 成为数据预处理、数据探索和数据可视化的宝贵工具。
PCA 的核心是确定数据集中方差最大的方向。想象一下数据点的散点图;PCA 可以找到最能体现数据分布的直线。这条线代表第一主成分。第二主成分是与第一主成分垂直的另一条线,它捕捉到的方差量仅次于第一主成分。通过将原始数据投影到这些新的分量上,PCA 创建了一个低维表示,可以过滤掉噪音,突出最重要的模式。这一过程对提高模型性能至关重要,它可以降低过拟合风险,减少训练所需的计算资源。
PCA 广泛应用于人工智能(AI)和计算机视觉(CV)的各个领域。
PCA 是一种线性技术,这意味着它假定变量之间的关系是线性的。虽然它功能强大、易于解释,但可能无法有效捕捉复杂的非线性结构。
虽然存在更先进的技术,但 PCA 仍然是一种有价值的工具,经常被用作数据探索和预处理管道的基准或初始步骤。在 Ultralytics 生态系统中,Ultralytics YOLO等模型在其CNN 主干网中使用内置特征提取,而降维原则则是关键所在。Ultralytics HUB等平台可帮助管理从组织数据集到 部署模型的整个 ML 工作流程,其中此类预处理步骤对于实现最佳结果至关重要。