术语表

物体检测

探索物体检测的强大功能--利用YOLO 等尖端模型识别和定位图像或视频中的物体。探索现实世界中的应用!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

物体检测是计算机视觉(CV)中的一项基本任务,涉及识别图像或视频中一个或多个物体的存在、位置和类型。与为整幅图像指定单一标签的图像分类不同,物体检测使用边界框精确勾勒出每个物体实例,并为其指定类别标签。这种功能可让机器以更高的粒度理解视觉场景,更接近人类的视觉感知。

物体检测如何工作

物体检测通常包含两项核心任务:物体分类(确定 "什么 "物体存在)和物体定位(确定物体 "在哪里")。现代物体检测系统在很大程度上依赖于深度学习(DL),尤其是卷积神经网络(CNN)。这些网络在大型数据集(如流行的COCO 数据集)上进行训练,以学习与不同物体类别相关的特征和模式。模型处理输入图像并输出边界框列表,每个边界框都有一个相关的类别标签(如 "汽车"、"人")和置信度分数。这些模型的性能通常使用 "交集大于联合"(Intersection over Union,IoU)和 "平均精度"(mean Average Precision,mAP)等指标来衡量。

物体检测与相关任务

必须将物体检测与其他相关的计算机视觉任务区分开来:

  • 图像分类为整个图像指定一个标签(如 "此图像包含一只猫")。它不提供物体的位置信息。
  • 图像分割对图像中的每个像素进行分类。语义分割为每个像素分配一个类别标签(例如,所有属于汽车的像素都被标记为 "汽车"),而实例分割则区分同一类别的不同实例(例如,标记为 "汽车 1"、"汽车 2")。与物体检测的边界框相比,分割能提供更详细的空间信息。

物体检测模型类型

物体检测模型一般分为两类:

  • 两阶段检测器:这些模型首先提出物体可能所在的兴趣区域(RoIs),然后对这些区域内的物体进行分类。例如 R-CNN 系列(基于区域的 CNN)。它们通常能达到很高的准确率,但速度可能较慢。
  • 单级检测器:这些模型直接在图像网格上一次性完成定位和分类。例如 Ultralytics YOLO模型,如 YOLOv8YOLOv11。它们通常速度更快,适合实时推理无锚检测器等新方法进一步简化了检测过程。您可以探索不同YOLO 模型之间的比较,以了解它们之间的权衡。

实际应用

物体检测对于各行各业的众多应用都至关重要:

工具和培训

开发对象检测模型需要使用专门的工具和平台。框架,如 PyTorchTensorFlow等框架提供了构建模块。OpenCV等库提供了基本的计算机视觉功能。Ultralytics 提供最先进的 Ultralytics YOLO模型和Ultralytics HUB平台,简化了训练自定义模型、管理数据集和高效部署解决方案的过程。有效的模型训练通常需要精心的超参数调整和数据增强策略。

阅读全部