术语表

图像分类

使用Ultralytics YOLO 探索图像分类:使用尖端工具为医疗保健、农业、零售等行业训练自定义模型。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

图像分类是计算机视觉(CV)中的一项基本任务,涉及根据视觉内容为整幅图像指定一个标签或类别。它是人工智能(AI)的核心能力,使机器能够像人类识别场景或物体一样理解图像并对其进行分类。借助机器学习(ML),尤其是深度学习(DL)技术,图像分类旨在回答以下问题:"该图像的主要对象是什么?这项任务是许多更复杂的视觉理解问题的基础。

图像分类的工作原理

这一过程通常包括在一个大型标注图像数据集上训练一个模型,通常是一种名为卷积神经网络(CNN)的专门神经网络。著名的数据集如ImageNet(包含数千类数百万张图像)通常用于训练强大的模型。在训练过程中,模型学会识别不同类别的区别模式和特征,如纹理、形状、边缘和颜色分布。像 PyTorchTensorFlow等框架提供了构建和训练这些深度学习模型所需的工具和库。您可以探索各种Ultralytics 分类数据集,如CIFAR-100MNIST,以启动自己的项目。最终目标是让训练好的模型准确预测以前未见过的新图像的类别标签。要从技术上深入了解底层机制,斯坦福 CS231n 课程 "卷积神经网络的视觉识别 "等资源提供了全面的资料。

与其他视觉任务的主要区别

图像分类的重点是为整幅图像分配一个单一的总体标签。这使其有别于其他常见的计算机视觉任务

  • 物体检测:这项任务更进一步,不仅要对图像中的物体进行分类,还要对它们进行定位,通常是在每个检测到的实例周围画出边界框。它可以回答 "图像中有哪些物体以及它们的位置在哪里?
  • 图像分割:这包括对图像中的每个像素进行分类。
    • 语义分割为每个像素指定一个类别标签(如 "汽车"、"道路"、"天空"),而不区分同一类别的不同实例。
    • 实例分割区分物体的单个实例,为属于每个单独物体的像素分配一个唯一的标识符(例如,标注 "汽车 1"、"汽车 2")。

了解这些差异对于针对特定问题选择合适的技术至关重要,因为每种任务都能提供不同程度的图像内容细节。

实际应用

图像分类因其在视觉信息分类方面的有效性而被广泛应用于各个领域:

利用Ultralytics进行图像分类

Ultralytics YOLO 模型在物体检测方面享有盛誉,在图像分类任务方面也表现出强劲的性能。最先进的架构,如 Ultralytics YOLO11等最先进的架构,可以使用直观的Ultralytics Python 软件包或无代码的Ultralytics HUB平台轻松进行分类训练或微调。这些工具提供了全面的资源,包括模型训练技巧和清晰的文档,例如如何使用Ultralytics YOLO11 进行图像分类的指南。如需进一步练习,可以考虑探索PyTorch 分类教程或参加Kaggle 图像 分类 竞赛。要想了解最新的研究进展,Papers With Code等资源非常宝贵。您还可以在标准基准上比较YOLO 模型的性能

阅读全部