了解监督学习如何利用标注数据为人工智能提供动力,从而实现准确预测以及物体检测和情感分析等应用。
监督学习是机器学习(ML)的一个基本类别,算法从包含输入-输出对(称为标记数据)的数据集中学习。从本质上讲,该算法是 "有监督 "的,因为它是通过将其对输入数据的预测与训练数据中提供的已知正确输出(标签)进行比较来学习的。算法的目标是学习一个映射函数,该函数可以准确预测新的、未见过的输入的输出。这种方法是许多现代人工智能(AI)应用的核心,使系统能够根据基准数据集或自定义数据集中的历史示例做出预测或决策。
这一过程始于精心准备的数据集,其中每个数据点都包含输入特征和相应的正确输出标签。这通常需要在数据收集和标注方面投入大量精力。例如,在图像分类任务中,输入将是图像(可能使用OpenCV 等库中的技术进行了预处理),标签将是它们所属的类别(如 "猫"、"狗")。该算法对训练数据进行迭代预测,并使用随机梯度下降(SGD)或亚当(Adam )等优化算法调整其内部参数(或模型权重),以最小化预测结果与实际标签之间的差异。这种差异由损失函数来衡量。这种训练通常会持续多个历元,直到模型在单独的验证数据上达到令人满意的准确度或其他相关性能指标,确保模型能很好地泛化到新数据上,并避免过度拟合。
有监督学习的用途非常广泛,可为历史数据预测未来事件或对新信息进行分类的大量应用提供支持。它能够直接从标注的示例中学习,因此适用于要求高精度的任务。许多计算机视觉(CV)任务在很大程度上依赖于监督学习,包括那些由最先进的模型执行的任务,如 Ultralytics YOLO.
下面是两个具体的例子:
其他常见应用包括图像和视频中的物体检测(用于自动驾驶汽车和安防系统)、垃圾邮件过滤、预测房价(回归任务)以及面部识别。人工智能还可用于更智能的零售库存管理和农业解决方案中的人工智能。
有几个概念对于理解和有效应用监督学习至关重要:
监督学习有别于其他主要的机器学习范式:
总之,监督学习是一种强大而广泛使用的技术,它利用标记数据来训练预测任务的模型。它是许多成功的人工智能应用(包括Ultralytics 开发和支持的应用)的基础,也是数据科学或人工智能领域从业人员的一项重要技能。