术语表

物体检测

探索物体检测的强大功能--利用YOLO 等尖端模型识别和定位图像或视频中的物体。探索现实世界中的应用!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

物体检测是计算机视觉(CV)中的一项基本任务,涉及识别图像或视频中一个或多个物体的存在、位置和类型。与为整幅图像指定单一标签(如 "猫")的图像分类不同,物体检测使用边界框精确勾勒出每个物体实例,并为其指定类别标签(如坐标 x、y、宽、高处的 "猫")。这种功能使机器能够以更高的粒度理解视觉场景,更接近地模拟人类的视觉感知,并实现与环境更复杂的交互。这是许多现代人工智能(AI)应用背后的核心技术。

物体检测如何工作

物体检测通常包含两项核心任务:物体分类(确定 "什么 "物体存在)和物体定位(确定物体的 "位置",通常通过边界框坐标)。现代物体检测系统在很大程度上依赖于深度学习(DL),尤其是卷积神经网络(CNN)。这些网络在大型注释数据集(如流行的COCO 数据集Open Images V7)上进行训练,以学习与不同物体类别相关的视觉特征和模式。

在操作过程中(称为推理),训练有素的模型会处理输入的图像或视频帧。它输出一个潜在物体列表,每个物体由一个边框、一个预测类别标签(如 "汽车"、"人"、"狗")和一个置信度分数表示模型对检测的确定性。非最大值抑制(NMS)等技术通常通过去除同一物体的多余重叠框来完善这些输出。这些模型的性能通常使用 "交集大于联合"(Intersection over Union,IoU)和 "平均精度"(mean Average Precision,mAP)等指标进行评估。

物体检测与相关任务

必须将物体检测与其他相关的计算机视觉任务区分开来:

  • 图像分类:为整幅图像指定一个标签(例如,"此图像包含一只狗")。它并不定位对象。
  • 图像分割:对图像中的每个像素进行分类,绘制详细的物体边界图。这比物体检测的边界框更加精细。
    • 语义分割:为每个像素指定一个类别标签(例如,所有属于 "汽车 "的像素都被标记为 "汽车")。它不会区分同一类别的不同实例。
    • 实例分割:为每个像素指定一个类别标签,并区分同一类别的各个实例(如 "汽车 1"、"汽车 2")。它结合了检测和分割。
  • 对象跟踪:包括检测连续视频帧中的物体,并为每个物体分配一个唯一的 ID,以跟踪其随时间的移动。它建立在物体检测的基础上。

物体检测模型类型

物体检测模型一般分为两大类,主要在方法和速度/精度权衡上有所不同:

  • 两级物体探测器:这些模型首先提出物体可能所在的兴趣区域(RoIs),然后对这些区域内的物体进行分类。例如R-CNN 系列(快速 R-CNN、更快 R-CNN)。它们通常能达到很高的准确率,但速度往往较慢。
  • 单级物体探测器:这些模型可直接从输入图像中一次性预测边界框和类概率,而无需单独的区域建议步骤。例子包括 Ultralytics YOLO(只看一次)系列、SSD(单镜头多框检测器)和 RetinaNet。这些方法通常速度更快,因此适合实时推理,但有时与两阶段方法相比,准确率会略有降低,不过像 YOLO11等模型有效地弥补了这一差距。无锚检测器等新方法进一步简化了单阶段过程。您可以比较不同的YOLO 模型和其他架构,如 RT-DETR.

实际应用

物体检测是一项基础技术,在各行各业都有大量应用:

  1. 自主系统:对于自动驾驶汽车机器人技术来说至关重要,它允许车辆和机器人通过检测行人、其他车辆、障碍物、交通标志和特定的交互物品来感知周围环境。特斯拉Waymo等公司在很大程度上依赖于强大的物体检测功能。
  2. 安防与监控:安防报警系统中用于检测入侵者、监控人群(人群管理中的视觉人工智能)、识别被遗弃的物品,以及提高公共场所和私人财产的监控效率。
  3. 零售分析:为自动结账系统、人工智能驱动的库存管理、货架监控(检测缺货商品)和分析顾客流量模式等应用提供动力。
  4. 医疗保健:应用于医学图像分析,检测 X 射线、CT 扫描和 MRI 中的肿瘤(使用YOLO11 检测肿瘤)或病变等异常情况,协助放射科医生进行诊断(放射学:人工智能)。
  5. 农业:实现精准农业技术,如检测病虫害、杂草、计算果实数量(农业中的计算机视觉)和监测作物健康(农业解决方案中的人工智能)。
  6. 制造业:通过检测装配线上产品的缺陷来进行质量控制(制造业质量检测),通过监控危险区域来确保安全,以及实现机器人任务自动化。

工具和培训

开发和部署物体检测模型涉及各种工具和技术。流行的深度学习框架,如 PyTorchTensorFlow提供了基础库。OpenCV等计算机视觉库提供了基本的图像处理功能。

Ultralytics 提供最先进的 Ultralytics YOLO模型,包括 YOLOv8YOLO11这些模型在速度和准确性方面进行了优化。Ultralytics HUB平台进一步简化了工作流程,为管理数据集训练自定义模型、执行超参数调整和促进模型部署提供了工具。有效的模型训练通常得益于数据增强策略和技术,如利用ImageNet 等数据集的预训练权重进行迁移学习

阅读全部