使用 Ultralytics YOLO 探索图像分类:使用尖端工具为医疗保健、农业、零售业等领域训练定制模型。
图像分类是计算机视觉 (CV)的一项基本任务,它涉及从一组预定义的类别中为整幅图像指定一个单一的特定标签。其主要目标是识别图像的主体并进行相应的分类。例如,分类模型会分析图像并输出 "猫"、"狗 "或 "汽车 "等标签。这项任务是许多更复杂的 CV 应用程序的基础,也是机器学习 (ML) 的核心组成部分。这一过程依赖于算法,其中最著名的是卷积神经网络(CNN),来学习大型标签数据集的识别特征。
图像分类模型采用监督学习法进行训练,即向模型输入大量已被人工标记为正确类别的图像。在训练过程中,神经网络学会识别与每个类别相关的模式、纹理、形状和颜色组合。这种学习是通过一个称为反向传播的过程来实现的,该过程会调整模型的内部参数或权重,以尽量减小预测结果与实际标签之间的差异。
现代分类模型通常使用多层深度学习架构。早期层可能学习识别边缘和角落等简单特征,而更深的层则将这些特征结合起来,以识别眼睛、车轮或人脸等更复杂的结构。网络的最后一层通常使用软最大函数为每个可能的类别生成概率分数。概率最高的类别将被选为最终预测结果。这一过程的关键是特征提取,即模型自动学习分类任务中信息量最大的特征。
图像分类被广泛应用于各行各业,以实现视觉识别任务的自动化和规模化。两个突出的例子包括
图像分类虽然与其他计算机视觉任务密切相关,但却有其独特的目的。重要的是要将其与以下任务区分开来:
总之,分类能告诉你图像中有哪些内容,检测能告诉你内容和位置,而分割则能提供场景中所有内容的详细像素级地图。
Ultralytics YOLO模型在物体检测方面享有盛誉,在图像分类任务方面也同样出色。使用直观的Ultralytics Python 软件包或无代码的Ultralytics HUB平台,可以在自定义数据集上轻松训练或微调YOLO11等先进模型。
我们的文档提供了广泛的资源,包括模型训练技巧和如何使用 YOLO11 进行图像分类的详细指南。开发人员可以利用ImageNet、CIFAR-100 和Caltech-101等基准数据集上的预训练模型,或者从头开始训练一个新模型。对于那些对最新进展感兴趣的人,Papers With Code等资源提供了对顶级模型的全面概述。您还可以在标准基准上比较 YOLO 模型的性能。PyTorch和TensorFlow等框架为构建和训练这些模型奠定了基础。