了解无监督学习如何利用聚类、降维和异常检测来发现数据中隐藏的模式。
无监督学习是机器学习(ML)的一种,其算法是在没有预定义标签或类别的数据上进行训练的。与监督学习不同,其目标不是根据输入特征预测已知输出。相反,系统会尝试自行学习数据中的潜在结构、模式和关系。这就好比给计算机一大堆未分类的物品,要求它找出自然的分组或有趣的特征,而不告诉它要找什么。这种方法对于探索复杂的数据集和发现事先可能并不明显的洞察力至关重要,是现代人工智能(AI)的重要组成部分。
在无监督学习中,算法会检查输入数据点,并尝试识别它们之间的相似性、差异性或相关性。训练阶段不提供 "正确 "答案或目标输出。算法必须推断数据中存在的固有结构。这通常涉及将数据点组织成组(聚类)、降低数据的复杂性(降维)或识别异常数据点(异常检测)。无监督方法的成功往往取决于算法在没有外部指导的情况下捕捉数据集内在属性的能力。
有几种技术属于无监督学习的范畴:
无监督学习在不同领域有多种应用:
无监督学习与其他 ML 方法有很大不同:
无监督学习是探索数据、发现隐藏结构和提取有价值特征的强大工具,通常是复杂数据分析管道的关键第一步,也是其他 ML 技术的补充。Ultralytics HUB等平台提供了开发和管理各种 ML 模型的环境,其中可能包含用于数据准备或分析的无监督技术。框架,如 PyTorch和 TensorFlow等框架提供了大量支持无监督算法实施的库。