术语表

t 分布随机邻域嵌入(t-SNE)

探索高维数据可视化的强大技术 t-SNE。了解它在人工智能和 ML 中的用途、优势和应用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

t-distributed Stochastic Neighbor Embedding(t-SNE)是一种常用的降维技术,特别适合在低维空间(通常是二维或三维空间)中可视化高维数据集。该技术由 Laurens van der Maaten 和 Geoffrey Hinton 开发,擅长揭示数据的底层结构,如聚类和流形,通过可视化检查使复杂数据更容易理解。它广泛应用于机器学习(ML)和数据分析领域。

了解 t-SNE

t-SNE 的核心思想是保留数据的局部结构。它将高维数据点之间的相似性建模为条件概率,然后试图找到一种低维嵌入,使映射点之间产生相似的概率分布。与主成分分析(PCA)等线性方法不同,t-SNE 是非线性和概率性的。这使它能够捕捉 PCA 可能忽略的复杂关系,尤其是当数据位于弯曲的流形上时。不过,PCA 能更好地保留数据的全局结构和方差。

该算法计算高维和低维空间中点之间的成对相似性。该算法在高维空间中使用高斯分布,在低维空间中使用 t 分布(具体来说,是具有一个自由度的 Student's t 分布)。使用 t 分布有助于缓解 "拥挤问题"(即点往往聚集在地图中心),并在低维地图中更有效地分离不同的点。这一过程包括使用梯度下降法最小化这两种分布之间的发散。有关详细的技术解释,请参阅t-SNE 论文原文

人工智能和 ML 的应用

t-SNE 主要是一种可视化技术,对于探索和理解人工智能模型生成的高维数据非常有价值。下面是一些例子:

主要考虑因素

t-SNE 功能强大,但也有用户应该了解的特点:

  • 计算成本:t-SNE 需要计算成对相似度,因此计算量很大,尤其是对于超大数据集。
  • 超参数敏感性:结果对超参数很敏感,尤其是 "复杂度",它影响着每个点所考虑的本地邻居的数量。通常需要对超参数进行适当调整。像scikit-learn这样的实施工具可以控制这些参数。
  • 解释:t-SNE 图中的聚类大小和聚类之间的距离并不总是直接对应于原始高维空间中的实际聚类大小或分隔。它主要揭示局部相似性和分组。它是一种探索工具,而不是像K-Means 那样的确定性聚类分析工具。

总之,t-SNE 是人工智能(AI)工具包中的一个重要工具,可用于对复杂的高维数据集进行可视化并获得直觉,是对其他分析方法的补充。

阅读全部