术语表

无监督学习

了解无监督学习如何利用聚类、降维和异常检测来发现数据中隐藏的模式。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

无监督学习是机器学习(ML)的一种,其算法是在没有预定义标签或类别的数据上进行训练的。与监督学习不同,其目标不是根据输入特征预测已知输出。相反,系统会尝试自行学习数据中的潜在结构、模式和关系。这就好比给计算机一大堆未分类的物品,要求它找出自然的分组或有趣的特征,而不告诉它要找什么。这种方法对于探索复杂的数据集和发现事先可能并不明显的洞察力至关重要,是现代人工智能(AI)的重要组成部分。

无监督学习如何运作

在无监督学习中,算法会检查输入数据点,并尝试识别它们之间的相似性、差异性或相关性。训练阶段不提供 "正确 "答案或目标输出。算法必须推断数据中存在的固有结构。这通常涉及将数据点组织成组(聚类)、降低数据的复杂性(降维)或识别异常数据点(异常检测)。无监督方法的成功往往取决于算法在没有外部指导的情况下捕捉数据集内在属性的能力。

关键技术和概念

有几种技术属于无监督学习的范畴:

  • 聚类这包括根据某些特征将相似的数据点分组。其目的是创建簇,簇中的项目高度相似,而不同簇中的项目则不相似。常见的算法包括K-Means 聚类DBSCAN。这对于客户细分或组织大型文档集等任务非常有用。
  • 降维这些技术旨在减少数据集中输入变量(特征)的数量,同时保留基本信息。这可以简化模型,降低计算成本,并有助于数据可视化。常用的方法包括主成分分析法(PCA)t 分布随机邻域嵌入法(t-SNE)
  • 关联规则学习:它能发现大型数据集中变量之间有趣的关系或关联规则。一个典型的例子是市场篮子分析,用于识别经常一起购买的物品。这里通常使用 Apriori 等算法。了解有关关联规则挖掘的更多信息
  • 异常检测这种技术侧重于识别与大多数数据有明显偏差的数据点。它被广泛应用于欺诈检测、网络安全和识别制造过程中的缺陷。
  • 生成模型一些无监督模型,如生成对抗网络(GAN)自动编码器,可以学习底层数据分布,生成与原始数据相似的新数据样本。

实际应用

无监督学习在不同领域有多种应用:

与其他学习范式的比较

无监督学习与其他 ML 方法有很大不同:

无监督学习是探索数据、发现隐藏结构和提取有价值特征的强大工具,通常是复杂数据分析管道的关键第一步,也是其他 ML 技术的补充。Ultralytics HUB等平台提供了开发和管理各种 ML 模型的环境,其中可能包含用于数据准备或分析的无监督技术。框架,如 PyTorchTensorFlow等框架提供了大量支持无监督算法实施的库。

阅读全部