术语表

边界框

了解边界框如何实现物体检测、人工智能和机器学习系统。探索边界框在计算机视觉应用中的作用!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

边框是计算机视觉(CV)中使用的矩形框架,用于指示图像或视频帧中物体的位置和大致范围。这些边框通常由其左上角和右下角的坐标(或中心点、宽度和高度)定义,提供了一种简单而有效的方法来指定物体的位置及其所占空间的大小。边框是各种 CV 任务(包括对象检测、对象跟踪和图像标注)的基本组成部分,是许多现代人工智能(AI)机器学习(ML)系统的基石。它们对于让机器不仅了解存在哪些物体,而且了解它们在视觉场景中的位置至关重要。

物体检测的重要性

边界框对于训练和评估物体检测模型都至关重要。在 Ultralytics YOLO等模型处理的任务中,边界框是训练过程中的 "地面实况"。这意味着它们代表了训练数据中物体的正确位置和大小,教会模型精确定位物体。这一过程通常从仔细的数据标注开始,由人工或自动工具在图像中的物体周围绘制这些方框,通常使用CVAT等平台或与Ultralytics HUB等平台集成进行数据集管理。在推理过程中,训练有素的模型会预测检测到的物体周围的边界框以及类标签和置信度分数。这种定位能力对于不仅需要识别物体,还需要精确定位的应用来说至关重要。

与边框有关的关键概念

有几种指标和技术与在 ML 模型中使用和评估边界框密切相关:

  • 联盟交叉(IoU):用于衡量预测边界框与地面实况边界框之间重叠程度的指标。它可以量化定位的准确性。
  • 非最大抑制(NMS):一种后处理技术,用于消除同一对象的冗余、重叠边界框,只保留最可靠的预测。
  • 平均精度 (mAP):评估物体检测模型性能的标准指标,同时考虑分类精度和定位精度(通常基于 IoU 门限)。请参阅详细的YOLO 性能指标
  • 锚箱:预定义的各种尺寸和长宽比的框,用于某些探测器(如较早的YOLO 版本),以帮助更有效地预测边界框。较新的模型,包括 YOLO11通常不使用锚点,从而简化了检测头。
  • COCO 数据集:大规模对象检测、分割和字幕数据集,广泛用于对象检测模型的基准测试。Ultralytics 可以轻松访问COCO和其他检测数据集

边界框与相关术语

虽然标准(轴对齐)边界框可以用简单的矩形定位物体,但其他计算机视觉技术可以提供不同程度的细节或处理不同的场景:

在现实世界中的应用

边界框是众多人工智能实际应用中不可或缺的一部分:

  1. 自动驾驶汽车:自动驾驶汽车主要依靠物体检测来识别和定位行人、其他车辆、交通信号灯以及使用边界框的障碍物。这种空间感知通常通过深度学习模型实现,对于安全导航和决策至关重要。Waymo等公司广泛展示了这一技术。Ultralytics 提供有关自动驾驶汽车中人工智能的见解。
  2. 零售分析:在零售业,边界框通过检测货架上的产品、监控库存水平以及通过货架互动或人流模式(物体计数)分析顾客行为,帮助进行人工智能驱动的库存管理
  3. 安全和监控:边框盒使自动监控系统能够实时检测和跟踪感兴趣的个人或物体,对未经授权的访问或可疑活动发出警报。这对于安全警报系统等楼宇应用来说至关重要。
  4. 医学图像分析:在医疗保健领域,边界框可以帮助放射科医生和临床医生突出显示扫描图像(X 光、CT、核磁共振成像)中潜在的异常情况,如肿瘤或病变,从而更快、更准确地进行诊断。请参阅《放射学》中的示例:人工智能和Ultralytics 的医学图像分析概述。
  5. 农业:在精准农业中,边界框可用于识别待收获的水果(水果检测)、监测作物健康状况或检测害虫等任务。
阅读全部