术语表

单级物体探测器

了解YOLO 等单级物体检测器的速度和效率,它是机器人和监控等实时应用的理想之选。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

计算机视觉(CV)领域,尤其是在物体检测方面,速度和效率往往与准确性同等重要。单级物体检测器是一类深度学习模型,其设计考虑到了这些优先事项,提供了一种简化的方法来识别和定位图像或视频中的物体。与两阶段检测器不同,单阶段检测器在神经网络的一次前向传递中执行对象定位(确定对象在哪里)和分类(确定对象是什么)。这种设计大大提高了速度,非常适合实时推理应用。

单级探测器的核心原理

单级物体检测器的特点是采用端到端设计,避免了单独提出感兴趣区域(可能包含物体的区域)的计算密集步骤。相反,它们将物体检测视为一个回归问题。该模型对整个输入图像进行一次处理,通常使用一个骨干网络(通常是卷积神经网络或 CNN)进行特征提取。然后将这些特征直接输入检测头,检测头可同时预测整个图像网格或特征图位置的边界框坐标、类别概率和置信度分数。这种单通道架构强调速度,非常适合需要快速处理的应用。流行的例子包括 Ultralytics YOLO系列模型,它们以兼顾速度和准确性而著称(如 YOLO11Google 研究院开发的SSD(单次多盒检测器)。与基于 锚点的旧方法相比,许多现代的单级检测器也不需要 锚点,从而进一步简化了管道。

与两级探测器的区别

单级物体检测器两级物体检测器的根本区别在于它们的操作流程。两阶段检测器,如颇具影响力的R-CNN(基于区域的 CNN)及其后续产品(如Faster R-CNN),首先使用选择性搜索或区域建议网络(RPN)等方法生成大量区域建议。在第二个不同阶段,对这些建议进行分类,并完善其边界框。这种两步法通常能达到更高的精度,尤其是在检测小型或重叠物体时,但代价是计算时间大幅增加,推理速度降低。

相比之下,单级检测器则将这些步骤合并在一起,在整个图像中一次性同时执行定位和分类。这种统一的方法大大提高了速度。从历史上看,这种速度优势有时需要权衡,与最先进的两阶段方法相比,可能会导致精度略低,特别是在定位精度方面。然而,架构设计、损失函数和训练策略方面的进步使得YOLO11 等现代单级检测器大大缩小了这一性能差距,在各种基准测试中提供了令人信服的比较。性能评估通常采用平均精度 (mAP)联合交叉 (IoU) 等指标。

实际应用

单级物体检测器的速度和效率使其在许多需要快速决策和处理的实际应用场景中发挥了重要作用:

  • 自动驾驶汽车使自动驾驶汽车能够实时检测行人、其他车辆、交通信号灯和障碍物,从而实现安全导航。Waymo等公司在很大程度上依赖于高效的物体检测。Ultralytics 为汽车人工智能提供解决方案。
  • 安全与监控为实时监控系统提供动力,以检测入侵行为、识别未经授权的人员、监控人群密度或触发安全警报。这包括防盗等应用。
  • 机器人学让机器人感知周围环境并与之互动,这对导航、物体操纵和人机协作等任务至关重要。了解YOLO 模型如何与机器人应用相结合。
  • 交通管理分析交通摄像头的视频馈送,以监控车辆流量、检测事故并优化信号时间。
  • 零售分析用于库存管理、分析客户行为和提升店内体验。
  • 生产质量控制高速识别生产线上的缺陷或异常。

工具和培训

开发和部署单级对象检测器需要使用各种工具和平台。深度学习框架,如 PyTorchTensorFlow等深度学习框架提供了核心库。OpenCV等计算机视觉库提供了基本的图像处理功能。Ultralytics 提供最先进的 Ultralytics YOLO模型和Ultralytics HUB平台,该平台简化了在COCO等数据集或您自己的数据上训练自定义模型、管理实验和高效部署模型的过程。有效的模型训练通常需要精心的超参数调整数据增强等策略,以提高稳健性和泛化能力。模型可导出为以下格式 ONNX等格式导出,以便在包括边缘设备在内的各种硬件平台上部署。

阅读全部