术语表

物体检测架构

探索对象检测架构的强大功能,这是理解图像的人工智能支柱。立即了解类型、工具和实际应用!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

物体检测架构是人工智能(AI)系统解读视觉信息的基本结构。这些专门的神经网络不仅可以对图像中物体进行分类(识别存在的物体),还可以对其进行精确定位,通常是在每个检测到的实例周围绘制边框。对于那些熟悉基本机器学习概念的人来说,了解这些架构对于利用现代计算机视觉功能至关重要。

核心部件

大多数物体检测架构都由几个共同工作的关键组件组成。骨干网络通常是卷积神经网络(CNN),负责从输入图像中进行初始特征提取,识别边缘和纹理等低级模式以及逐渐复杂的特征。随后通常会有一个 "颈部 "组件,汇总来自骨干网不同阶段的特征,以创建更丰富的表征,适用于检测不同尺度的物体。最后,检测头利用这些特征来预测物体的类别和位置(边界框坐标)。通常使用 "交集大于联合"(IoU)等指标来衡量性能,以评估定位精度。

架构类型

物体检测架构可根据其方法进行大致分类:

  • 两阶段检测器这些架构(如 R-CNN 及其后续产品Faster R-CNN)首先会识别图像中的潜在兴趣区域(区域建议),然后对这些区域内的对象进行分类和完善边界框。它们通常以高精度著称,但速度可能较慢。
  • 单级探测器SSD(单射多盒探测器)和 Ultralytics YOLO(You Only Look Once)等架构可在网络的一次前向传递中同时执行对象定位和分类。这使得它们的速度大大加快,并适合实时推理。现代YOLO 模型,如 YOLO11等现代 YOLO 模型通常采用无锚技术,与基于锚的方法相比,可简化设计并提高泛化能力。

与类似术语的区别

必须将物体检测架构与相关的计算机视觉任务区分开来:

  • 图像分类识别图像的主体(如 "猫"),但不能确定其位置。物体检测会告诉你有哪些物体以及它们在哪里
  • 语义分割将图像中的每个像素划分为预定义的类别(如道路、汽车、天空),提供密集的像素级理解,而不区分单个对象实例。
  • 实例分割比物体检测和语义分割更进一步,它能识别单个物体实例,并为每个实例提供像素级掩码。

实际应用

物体检测架构为各行各业的众多人工智能应用提供了动力:

  1. 自动驾驶汽车通过检测其他车辆、行人、骑车人和交通信号,使自动驾驶汽车能够感知周围环境,从而实现安全导航(参见自动驾驶汽车中的人工智能博客)。
  2. 医学图像分析通过自动检测和定位 X 射线、CT 扫描和 MRI 中的异常情况如肿瘤、病变或骨折)来协助放射科医生,从而提前做出诊断(探索医疗保健中的人工智能)。
  3. 安全与监控:通过检测入侵、识别特定个人(面部识别)或跟踪视频画面中的物体实现自动监控(参见《安全警报系统指南》)。
  4. 零售分析:监控货架库存(用于库存管理的人工智能)、分析顾客流量和增强结账系统。

工具和技术

开发和部署基于这些架构的模型通常需要专门的工具和框架:

  • Ultralytics YOLO广受欢迎的模型系列和配套框架,以兼顾速度和准确性而著称,广泛用于实时应用。您可以比较不同的YOLO 版本,如YOLO11 与 YOLOv10
  • Ultralytics HUB一个无需大量编码即可简化YOLO 模型的训练、管理和部署过程的平台。
  • 深度学习框架:库,如 PyTorchTensorFlow等库为创建和训练这些复杂的神经网络提供了构件。
  • OpenCV一个重要的开源库,提供大量计算机视觉功能,通常与检测模型一起用于预处理和后处理任务。
阅读全部