了解边界框如何实现物体检测、人工智能和机器学习系统。探索边界框在计算机视觉应用中的作用!
边框是计算机视觉(CV)中使用的矩形框架,用于指示图像或视频帧中物体的位置和大致范围。这些边框通常由其左上角和右下角的坐标(或中心点、宽度和高度)定义,提供了一种简单而有效的方法来指定物体的位置及其所占空间的大小。边框是各种 CV 任务(包括对象检测、对象跟踪和图像标注)的基本组成部分,是许多现代人工智能(AI)和机器学习(ML)系统的基石。它们对于让机器不仅了解存在哪些物体,而且了解它们在视觉场景中的位置至关重要。
边界框对于训练和评估物体检测模型都至关重要。在 Ultralytics YOLO等模型处理的任务中,边界框是训练过程中的 "地面实况"。这意味着它们代表了训练数据中物体的正确位置和大小,教会模型精确定位物体。这一过程通常从仔细的数据标注开始,由人工或自动工具在图像中的物体周围绘制这些方框,通常使用CVAT等平台或与Ultralytics HUB等平台集成进行数据集管理。在推理过程中,训练有素的模型会预测检测到的物体周围的边界框以及类标签和置信度分数。这种定位能力对于不仅需要识别物体,还需要精确定位的应用来说至关重要。
有几种指标和技术与在 ML 模型中使用和评估边界框密切相关:
虽然标准(轴对齐)边界框可以用简单的矩形定位物体,但其他计算机视觉技术可以提供不同程度的细节或处理不同的场景:
边界框是众多人工智能实际应用中不可或缺的一部分: