术语表

边界框

了解边界框如何实现物体检测、人工智能和机器学习系统。探索边界框在计算机视觉应用中的作用!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

边界框是计算机视觉(CV)中用来指示图像或视频帧中物体位置和范围的矩形框。这些边框通常由其左上角和右下角的坐标来定义,提供了一种简单而有效的方法来指定物体的位置及其所占空间的大小。边框是各种 CV 任务(包括对象检测、对象跟踪和图像标注)的基本组成部分,是许多现代人工智能(AI)和机器学习(ML)系统的基石。

物体检测的重要性

边界框对于训练和评估物体检测模型至关重要。在 Ultralytics YOLO等模型处理的任务中,边界框在训练过程中充当了地面实况,教会模型精确定位物体。在推理过程中,模型会预测检测到的物体周围的边界框。这种定位能力对于不仅需要识别物体,还需要精确定位物体的应用(如自动驾驶汽车或机器人系统)来说至关重要。这一过程通常始于仔细的数据标注,即人类或自动工具在训练图像中围绕物体绘制边框,通常使用CVAT 等工具

与边框有关的关键概念

有几种指标和技术与在 ML 模型中使用和评估边界框密切相关:

  • 交集大于联合 (IoU):用于衡量预测边界框与地面实况边界框之间重叠程度的指标。
  • 非最大值抑制(NMS):用于消除检测到同一物体的多余边界框的技术,只保留置信度最高的边界框。
  • 平均精度 (mAP):评估物体检测模型性能的常用指标,主要依赖于 IoU 计算。
  • 锚点框:锚点框:一些检测器使用不同大小和长宽比的预定义框,以帮助更有效地预测边界框。COCO等基准数据集通常用于评估基于这些概念的模型。

边界框与相关术语

边界框可以用矩形定位物体,而其他计算机视觉技术则可以提供不同程度的细节:

  • 图像分割:与提供矩形定位的边界框不同、 图像分割 旨在对图像中的每个像素进行分类。
    • 语义分割会给每个像素分配一个类别标签(如汽车、人、道路),但不会区分同一类别的不同实例。
    • 实例分割通过使用像素级掩码识别和勾勒每个单独的对象实例,提供比边界框更多的细节,从而更进一步。您可以了解有关实例分割任务的更多信息。
  • 定向包围盒(OBB):标准边界框是轴对齐的。对于旋转的物体,定向包围盒(OBB)通过与物体一起旋转包围盒来提供更紧密的贴合。这在航空图像分析或在杂乱场景中检测物体等应用中特别有用,通常在DOTA 等数据集上进行评估。

在现实世界中的应用

边界框是众多人工智能实际应用中不可或缺的一部分:

自动驾驶汽车

自动驾驶汽车的人工智能开发过程中,边界框对于检测和跟踪行人、骑车人、其他车辆和道路障碍物至关重要。利用边界框进行准确、实时的物体检测,可使汽车系统做出明智的决策,实现安全导航和避免碰撞,并遵守美国国家公路交通安全管理局(NHTSA)等组织制定的安全准则。进一步了解人工智能在自动驾驶汽车中的作用

零售库存管理

零售商利用带边界框的物体检测功能来自动监控货架和管理库存。配备人工智能模型的摄像头可以检测产品、计算库存水平、识别放错位置的物品,并跟踪顾客与商品的互动。这可以提高效率,减少人工操作,并为优化商店布局和库存补充提供宝贵的数据。对此类零售技术趋势的洞察凸显了人工智能在零售业中日益增长的重要性。您可以找到适用于不同行业的各种Ultralytics 解决方案

阅读全部