术语表

无监督学习

了解无监督学习如何利用聚类、降维和异常检测来发现数据中隐藏的模式。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

无监督学习是机器学习(ML)的一种,算法从无标签数据中学习模式。有监督学习依赖于预定义的标签或 "正确答案",而无监督学习则不同,它是在没有事先指导的情况下,通过探索数据的内在结构来发现隐藏的关系、分组或异常。在人工智能(AI)中,这种方法尤其适用于初始数据探索和理解复杂的数据集,因为在这些数据集上贴标签是不切实际或不可能的。它允许模型直接从数据中发现模式和见解。

无监督学习如何运作

无监督学习的主要目标是对数据的基本结构或分布进行建模,从而了解更多信息。算法可以自行发现数据的相似性、差异性和结构。常见的技术包括

  • 聚类这包括根据某些特征自动将相似的数据点分组。流行的算法包括K-Means 聚类DBSCAN
  • 降维这种技术通过减少输入变量或特征的数量来简化数据,同时保留基本信息。主成分分析法(PCA)是一种广泛使用的降维方法。
  • 关联规则学习这种方法可以发现大型数据集中变量之间有趣的关系或关联规则。它通常应用于市场篮子分析,以发现经常一起购买的商品。

无监督学习的应用

在现实世界的各种场景中,尤其是在处理大量无标记数据时,都会用到无监督学习技术:

  • 客户细分:企业利用聚类对具有相似行为、偏好或人口统计特征的客户进行分组。这样可以更有效地开展有针对性的营销活动,并提供个性化的客户体验。了解有关客户细分的更多信息
  • 异常检测无监督算法擅长识别严重偏离正常值的异常数据点或异常值。这对于金融欺诈检测、网络入侵检测或制造缺陷识别等应用至关重要。

人工智能和 ML 的相关性

无监督学习在理解大数据特有的大量原始、无标记数据方面发挥着至关重要的作用。它通常是数据预处理特征工程的重要步骤,有助于在应用其他 ML 技术之前发现隐藏结构或降低数据复杂性。虽然像Ultralytics YOLO 这样的模型主要是使用监督方法对物体检测等任务进行训练,但通过无监督方法了解数据结构可以极大地帮助数据集的准备和分析,从而潜在地提高模型性能。您可以探索用于准备数据集的数据收集和注释指南,并使用Ultralytics HUB 等平台管理您的数据和模型。

无监督学习与其他学习类型的比较

必须将无监督学习与相关的深度学习(DL)和 ML 范式区分开来:

  • 监督学习需要一个完全标记的数据集,即每个数据点都有一个已知的输出或类别。目标是训练出一个模型,能根据标注示例准确预测未见过的新数据点的输出。
  • 自我监督学习通常被认为是无监督学习的一种,它通过创建借口任务(如预测图像的隐藏部分),从输入数据本身自动生成标签。它广泛用于预训练大型模型,包括基于Transformer 架构的模型。
  • 半监督学习结合使用少量标记数据和大量非标记数据。这种方法旨在利用非标记数据来提高学习的准确性,超越仅使用有限的标记数据所能达到的效果。进一步探索半监督学习

无监督学习仍是人工智能的一个基本领域,它能在标签稀缺或不可用的复杂数据集中推动发现和理解。

阅读全部