监督学习
了解监督学习如何利用标注数据为人工智能提供动力,从而实现准确预测以及物体检测和情感分析等应用。
监督学习是机器学习(ML)中的一种基本模式,即算法从人工标注了正确结果的数据中学习。其主要目标是学习一个映射函数,该函数可以预测新的、未见过的数据的输出结果。这就好比在训练阶段有一个提供正确答案(标签)的老师或 "监督者 "进行学习。这种方法是许多成功的人工智能(AI)应用,尤其是计算机视觉(CV)应用的支柱。
监督学习如何运作
有监督的学习过程始于一个包含输入特征和相应输出标签的数据集。该标签数据集分为训练数据、验证数据和测试数据。
- 训练:向模型输入训练数据。它对每个输入进行预测,并将其与正确的标签进行比较。
- 纠错:模型预测与实际标签之间的差异由损失函数量化。梯度下降等优化算法会调整模型的内部参数或模型权重,使误差最小化。
- 迭代:这个过程会重复多次,让模型学习数据中的基本模式。在验证集上对模型的性能进行监控,以防止出现过拟合等问题。
- 预测:训练完成后,模型就可以对未标记的新数据进行预测。这些预测的质量将通过测试集和性能指标进行评估。
Ultralytics HUB 等平台可简化整个工作流程,从而简化数据集管理、模型训练和部署。
监督学习问题的类型
有监督的学习任务通常分为两大类:
- 分类:目标是预测离散类别或类别标签。例如,可以训练图像分类模型,将图像分类为包含 "猫 "或 "狗 "的图像。其他例子包括垃圾邮件检测和情感分析。Ultralytics YOLO等模型可用于高性能分类任务的训练。如需进一步阅读,请浏览分类介绍。
- 回归:目标是预测一个连续的数值。例如,一个模型可以根据房屋的大小和位置等特征预测房屋的价格。其他应用包括股票价格预测和温度预测。有关回归的概述,请参阅本回归分析指南。
实际应用
有监督的学习驱动着无数现代人工智能系统。这里有两个突出的例子:
- 自动驾驶汽车中的物体检测:自动驾驶汽车依靠物体检测模型来识别和定位行人、其他车辆和交通标志。这些模型是在庞大的数据集上训练出来的,图像中的物体都标有边框。经过训练的模型可以处理实时视频馈送,从而做出关键的驾驶决策。Ultralytics 为汽车行业的人工智能提供强大的解决方案。
- 医学图像分析:在医疗保健领域,监督学习模型被用于医学图像分析,如检测核磁共振成像或 CT 扫描中的肿瘤。放射科医生会对大量扫描图像进行标注,指出是否存在肿瘤。然后根据这些数据训练卷积神经网络 (CNN),以协助早期诊断。例如,可以在脑肿瘤检测数据集上训练模型。
与其他学习范式的比较
监督学习有别于其他主要的机器学习范式:
- 无监督学习:这种方法使用未标记的数据,算法试图自己找到模式或结构,例如将相似的数据点分组(聚类)或降低数据维度。它不会从已知答案中直接学习输入到输出的映射。阅读 "无监督学习概述"。
- 自我监督学习(SSL):无监督学习的一个子集,监督信号(标签)由输入数据本身自动生成。这是一种强大的技术,可在针对特定任务对基础模型进行微调之前,在大量无标签数据上对其进行预训练。
- 强化学习:在这一范例中,代理通过与环境互动,并根据自己的行动接受奖励或惩罚,从而学会做出一系列决策。它通过试验和错误来学习最佳行为,而不是从静态的、标注过的数据集中学习。探索强化学习概述。
总之,监督学习是一种强大而广泛使用的技术,它利用标记数据来训练预测任务的模型。它是许多成功的人工智能应用(包括 Ultralytics 开发和支持的应用)的基础,也是数据科学或人工智能领域从业人员的一项重要技能。