术语表

t 分布随机邻域嵌入(t-SNE)

探索高维数据可视化的强大技术 t-SNE。了解它在人工智能和 ML 中的用途、优势和应用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

t-distributed Stochastic Neighbor Embedding(t-SNE)是一种强大的降维技术,主要用于在低维空间(通常是二维或三维空间)中可视化高维数据。它在揭示数据的局部结构方面尤为有效,是机器学习和数据分析领域的重要工具,可通过直观的可视化表示来理解复杂的数据集。

了解 t-SNE

t-SNE 的核心是将高维数据点映射到较低的维度,同时尽可能保留原始数据的成对相似性。与主成分分析(PCA)等线性降维技术不同,t-SNE 是非线性的,因此它能捕捉到线性方法可能忽略的复杂关系和模式。这种非线性特性使它特别擅长处理复杂的现实世界数据集,因为这些数据集的关系往往是曲线或流形的。

该算法首先在高维数据点对上构建一个概率分布,以表示相似性。然后在低维地图中的点上定义一个相似的概率分布。t-SNE 的目标是最小化这两个分布之间的发散,理想情况下得到的低维地图能反映原始数据的结构,尤其是其局部邻域。这一过程涉及复杂的计算,使用了概率和梯度下降优化的概念。如需更深入的技术探讨,可参考van der Maaten 和 Hinton(2008 年)撰写的 t-SNE 原始论文

人工智能和 ML 的应用

t-SNE 在可视化复杂数据集方面非常有效,因此被广泛应用于人工智能和机器学习的各个领域。下面是几个具体的例子:

  • 医学图像分析:在医学图像分析中,t-SNE 可用于可视化从核磁共振成像或 CT 扫描等医学图像中提取的高维特征向量。例如,在脑肿瘤检测中,使用 t-SNE 可以将不同感兴趣区域的特征缩小到两个维度,从而使研究人员和临床医生能够直观地识别可能对应于不同肿瘤类型或阶段的相似图像特征群。这种可视化聚类有助于诊断和了解疾病模式,有可能提高人工智能驱动的诊断工具的准确性。
  • 自然语言处理(NLP):在自然语言处理(NLP)中,t-SNE 对单词嵌入的可视化非常重要。词语嵌入是词语的高维向量表示,可捕捉语义关系。通过将 t-SNE 应用于这些词嵌入,可以将它们投射到二维或三维空间中,观察语义相似的词是如何聚集在一起的。例如,"国王"、"王后"、"王子 "和 "公主 "等词可能会形成一个聚类,而与天气或食物相关的词则会形成单独的聚类。这种可视化方法有助于了解BERTGPT 等模型生成的词嵌入的质量和结构,通常用于语义搜索应用。

主要考虑因素

虽然 t-SNE 是一个强大的工具,但也必须了解它的特点和局限性:

  • 计算成本:t-SNE 可能是计算密集型的,尤其是对于超大数据集,因为它的复杂度与数据点的数量成二次方关系。对于大规模应用,应考虑加快 t-SNE 速度的方法,或将其用于数据的代表性子集。
  • 解释:虽然 t-SNE 擅长揭示局部结构和聚类,但 t-SNE 图中的全局距离可能无法准确反映原始高维空间中的全局距离。重点是解释聚类和邻域,而不是远距离点之间的精确距离。
  • 复杂度:t-SNE 有一个名为 "复杂度 "的参数,它会影响结果的可视化。它大致控制了构建概率分布时考虑的近邻数量。对perplexity进行超参数调整会对可视化效果产生重大影响,因此通常建议尝试使用不同的perplexity值,以便为给定数据集找到信息量最大的可视化效果。Python 中的scikit-learn等工具提供了可调整复杂度和其他参数的 t-SNE 实现。

总之,t-SNE 是实现高维数据可视化的重要降维技术,尤其是在各种人工智能和计算机视觉应用中,了解局部数据结构和聚类模式至关重要。

阅读全部