术语表

降维

利用降维技术简化高维数据。提高 ML 模型的性能、可视化和效率！

降维是机器学习（ML）和数据分析中的一个重要过程，用于减少数据集中的特征（或维度）数量，同时尽可能多地保留有意义的信息。包含大量特征的高维数据会带来被称为"维度诅咒 "的挑战，在这种情况下，模型的训练计算成本会变得很高，需要更多内存，容易出现过度拟合，并且由于数据分布稀疏，很难很好地泛化。降维技术旨在通过将数据转换到低维空间、简化模型、提高训练速度、增强模型性能以及实现更容易的数据可视化来缓解这些问题。

降维工作原理

降维技术一般分为两大类：

特征选择：这些方法从原始特征中选择一个子集，摒弃那些被认为不相关或多余的特征。目的是保留信息量最大的特征，而不对其进行改动。这些方法可分为过滤法（基于统计特性）、包装法（基于模型性能）或嵌入法（集成到模型训练过程中）。
特征提取：这些方法将原始的高维数据转化为新的低维特征空间。它们不只是选择特征，而是创建新的特征（通常是原始特征的组合）来捕捉基本信息。这是一个核心概念，详见特征提取术语表条目。

关键技术

降维通常使用几种算法：

主成分分析（PCA）：一种广泛应用的线性特征提取技术。PCA 可以识别主成分--新的、不相关的特征，这些特征可以捕捉到原始数据中最大的变异。它将数据投影到这些分量上，有效地减少了维数，同时保留了数据的大部分变异性。它通常使用Scikit-learn 等库实现。
t-distributed Stochastic Neighbor Embedding（t-SNE）：t-SNE 专注于保留数据的局部结构，将高维数据点映射到低维点，从而使相似点保持靠近。虽然它在可视化方面表现出色，但计算量大，与 PCA 相比，不太适合在模型训练前进行一般的降维处理。Laurens van der Maaten 的网站提供有关 t-SNE 的资源。
自动编码器：一种用于无监督学习和特征提取的神经网络 (NN)。自动编码器由一个编码器和一个解码器组成，编码器将输入数据压缩为低维的潜在表示（瓶颈层），解码器则从该表示重建原始数据。压缩后的潜在表示作为降维输出。这些通常使用以下框架构建 PyTorch或 TensorFlow.

降维与相关概念

特征提取：如前所述，特征提取是一种降维方法，它能从旧特征中提取新特征。PCA 和自动编码器等技术都属于这一类。
特征工程：这是一个更广泛的过程，包括创建、选择和转换特征，以提高模型性能。降维（包括选择和提取）被认为是特征工程的一部分。有效的特征工程通常需要领域专业知识。
数据压缩：虽然两者都旨在减少数据大小，但降维特别注重保留与 ML 任务相关的信息，可能会放弃一些重构细节。标准数据压缩（如 ZIP 文件）的目的是在无损或损失可接受的情况下最大限度地缩小存储空间，而不一定是针对 ML 模型输入进行优化。

人工智能和 ML 的应用

降维在许多人工智能（AI）和 ML 应用中都至关重要：

计算机视觉（CV）：图像包含大量像素数据。PCA 等技术或卷积神经网络（CNN）中的固有特征提取技术（用于诸如 Ultralytics YOLO等模型中使用）的固有特征提取技术可降低维度，重点关注物体检测或图像分类等任务的相关模式。这不仅能加快处理速度，还能提高模型的准确性。预处理数据指南通常涉及与特征处理相关的步骤。
生物信息学分析基因组数据时，经常会涉及到包含数千个基因表达（特征）的数据集。降维可以帮助研究人员识别与疾病或生物功能相关的重要模式，使复杂的生物数据更易于管理。在《自然-方法》等期刊上发表的研究报告经常使用这些技术。
自然语言处理（NLP）：文本数据可以使用TF 或单词嵌入等技术在高维空间中表示。降维有助于简化这些表示，以完成文档分类、主题建模或情感分析等任务。
数据可视化：t-SNE 等技术对于绘制二维或三维高维数据集（如客户细分、基因集群）非常有价值，可以让人类直观地检查和理解数据中的潜在结构或关系。Ultralytics HUB等平台可帮助管理与此类分析相关的数据集和模型。

优势与挑战

好处

降低计算成本，缩短培训时间。
最大限度地减少内存和存储需求。
可减轻维度诅咒，减少过度拟合。
消除噪音和冗余，提高模型性能。
实现复杂、高维数据的可视化。

挑战：

如果应用不慎，可能会丢失重要信息。
选择合适的技术和目标维数可能具有挑战性。
与原始特征相比，变换后的特征（在特征提取中）有时难以解释。
有些技术，如 t-SNE，计算成本很高。

在现代人工智能开发中，了解和应用降维技术对于有效处理大型复杂数据集至关重要。

降维

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO