术语表

主成分分析(PCA)

利用主成分分析 (PCA) 简化高维数据。立即提升人工智能、ML 模型和数据可视化效率!

主成分分析(PCA)是机器学习(ML)降维的基本技术。其主要目标是简化高维数据的复杂性,同时尽可能多地保留原始信息(方差)。为此,它将原始变量集转化为一组新的、更小的不相关变量集,称为 "主成分"。这些分量是有序排列的,因此前几个分量保留了原始数据集中的大部分变异。这使得 PCA 成为数据预处理、数据探索和数据可视化的宝贵工具。

主成分分析的工作原理

PCA 的核心是确定数据集中方差最大的方向。想象一下数据点的散点图;PCA 可以找到最能体现数据分布的直线。这条线代表第一主成分。第二主成分是与第一主成分垂直的另一条线,它捕捉到的方差量仅次于第一主成分。通过将原始数据投影到这些新的分量上,PCA 创建了一个低维表示,可以过滤掉噪音,突出最重要的模式。这一过程对提高模型性能至关重要,它可以降低过拟合风险,减少训练所需的计算资源。

真实世界的人工智能/移动语言应用

PCA 广泛应用于人工智能(AI)计算机视觉(CV)的各个领域。

  1. 人脸识别和图像压缩:在计算机视觉中,图像是高维数据,每个像素都是一个特征。PCA 可用来压缩图像,减少表示图像所需的维数。一个著名的应用是在人脸识别中,被称为 "特征面 "的技术使用 PCA 来识别人脸最重要的特征(主成分)。这种简化的表示方法使得存储和比较人脸的效率大大提高,这对于图像分类和生物识别安全等任务至关重要。如需深入了解,请参阅这篇关于特征面的介绍
  2. 生物信息学和遗传分析:基因组数据集通常包含成千上万个特征,例如许多样本中成千上万个基因的表达水平。由于维度诅咒的存在,分析此类高维数据极具挑战性。PCA 可以帮助美国国家人类基因组研究所等机构的研究人员降低这种复杂性,使数据可视化,并识别具有相似遗传特征的患者或样本群。这可以揭示与疾病或治疗反应相关的模式,加速个性化医学的研究。

PCA 与其他技术的比较

PCA 是一种线性技术,这意味着它假定变量之间的关系是线性的。虽然它功能强大、易于解释,但可能无法有效捕捉复杂的非线性结构。

虽然存在更先进的技术,但 PCA 仍然是一种有价值的工具,经常被用作数据探索和预处理管道的基准或初始步骤。在 Ultralytics 生态系统中,Ultralytics YOLO等模型在其CNN 主干网中使用内置特征提取,而降维原则则是关键所在。Ultralytics HUB等平台可帮助管理从组织数据集到 部署模型的整个 ML 工作流程,其中此类预处理步骤对于实现最佳结果至关重要。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板