术语表

降维

利用降维技术简化高维数据。提高 ML 模型的性能、可视化和效率!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

降维是机器学习(ML)和数据分析中的一个重要过程,用于减少数据集中的特征(或维度)数量,同时尽可能多地保留有意义的信息。包含大量特征的高维数据会带来被称为"维度诅咒 "的挑战,在这种情况下,模型的训练计算成本会变得很高,需要更多内存,容易出现过度拟合,并且由于数据分布稀疏,很难很好地泛化。降维技术旨在通过将数据转换到低维空间、简化模型、提高训练速度、增强模型性能以及实现更容易的数据可视化来缓解这些问题。

降维工作原理

降维技术一般分为两大类:

  1. 特征选择:这些方法从原始特征中选择一个子集,摒弃那些被认为不相关或多余的特征。目的是保留信息量最大的特征,而不对其进行改动。这些方法可分为过滤法(基于统计特性)、包装法(基于模型性能)或嵌入法(集成到模型训练过程中)。
  2. 特征提取:这些方法将原始的高维数据转化为新的低维特征空间。它们不只是选择特征,而是创建新的特征(通常是原始特征的组合)来捕捉基本信息。这是一个核心概念,详见特征提取术语表条目

关键技术

降维通常使用几种算法:

  • 主成分分析(PCA)一种广泛应用的线性特征提取技术。PCA 可以识别主成分--新的、不相关的特征,这些特征可以捕捉到原始数据中最大的变异。它将数据投影到这些分量上,有效地减少了维数,同时保留了数据的大部分变异性。它通常使用Scikit-learn 等库实现。
  • t-distributed Stochastic Neighbor Embedding(t-SNE)t-SNE 专注于保留数据的局部结构,将高维数据点映射到低维点,从而使相似点保持靠近。虽然它在可视化方面表现出色,但计算量大,与 PCA 相比,不太适合在模型训练前进行一般的降维处理。Laurens van der Maaten 的网站提供有关 t-SNE 的资源。
  • 自动编码器:一种用于无监督学习和特征提取的神经网络 (NN)自动编码器由一个编码器和一个解码器组成,编码器将输入数据压缩为低维的潜在表示(瓶颈层),解码器则从该表示重建原始数据。压缩后的潜在表示作为降维输出。这些通常使用以下框架构建 PyTorchTensorFlow.

降维与相关概念

  • 特征提取:如前所述,特征提取是一种降维方法,它能从旧特征中提取新特征。PCA 和自动编码器等技术都属于这一类。
  • 特征工程这是一个更广泛的过程,包括创建、选择和转换特征,以提高模型性能。降维(包括选择和提取)被认为是特征工程的一部分。有效的特征工程通常需要领域专业知识。
  • 数据压缩:虽然两者都旨在减少数据大小,但降维特别注重保留与 ML 任务相关的信息,可能会放弃一些重构细节。标准数据压缩(如 ZIP 文件)的目的是在无损或损失可接受的情况下最大限度地缩小存储空间,而不一定是针对 ML 模型输入进行优化。

人工智能和 ML 的应用

降维在许多人工智能(AI)和 ML 应用中都至关重要:

  • 计算机视觉(CV)图像包含大量像素数据。PCA 等技术或卷积神经网络(CNN)中的固有特征提取技术(用于诸如 Ultralytics YOLO等模型中使用)的固有特征提取技术可降低维度,重点关注物体检测图像分类等任务的相关模式。这不仅能加快处理速度,还能提高模型的准确性预处理数据指南通常涉及与特征处理相关的步骤。
  • 生物信息学分析基因组数据时,经常会涉及到包含数千个基因表达(特征)的数据集。降维可以帮助研究人员识别与疾病或生物功能相关的重要模式,使复杂的生物数据更易于管理。在《自然-方法》等期刊上发表的研究报告经常使用这些技术。
  • 自然语言处理(NLP)文本数据可以使用TF 或单词嵌入等技术在高维空间中表示。降维有助于简化这些表示,以完成文档分类、主题建模或情感分析等任务。
  • 数据可视化:t-SNE 等技术对于绘制二维或三维高维数据集(如客户细分、基因集群)非常有价值,可以让人类直观地检查和理解数据中的潜在结构或关系。Ultralytics HUB等平台可帮助管理与此类分析相关的数据集和模型。

优势与挑战

好处

  • 降低计算成本,缩短培训时间。
  • 最大限度地减少内存和存储需求。
  • 可减轻维度诅咒,减少过度拟合
  • 消除噪音和冗余,提高模型性能。
  • 实现复杂、高维数据的可视化。

挑战:

  • 如果应用不慎,可能会丢失重要信息。
  • 选择合适的技术和目标维数可能具有挑战性。
  • 与原始特征相比,变换后的特征(在特征提取中)有时难以解释。
  • 有些技术,如 t-SNE,计算成本很高。

在现代人工智能开发中,了解和应用降维技术对于有效处理大型复杂数据集至关重要。

阅读全部