深圳Yolo 视觉
深圳
立即加入
词汇表

边界框

了解边界框如何在计算机视觉中定义物体位置。探索坐标格式、实际应用场景,以及如何Ultralytics 。

边界框是由一组坐标定义的矩形区域,用于包围图像或视频帧中的特定对象。在计算机视觉(CV)领域,这些边界框作为基础标注,用于训练人工智能(AI)系统定位和识别不同物体。 与简单地将整张图像归类为"包含汽车"不同, 边界框能让模型精确定位汽车的位置及空间范围, 将其与背景及其他物体分离。这种定位能力对物体检测任务至关重要, 该任务旨在同时高精度识别多个物体。

核心概念与坐标系

为有效处理视觉数据, 机器学习(ML)模型依赖特定坐标系 以数学方式表示边界框。所选格式通常决定了 数据如何为模型训练做准备,以及模型如何输出预测结果。

  • XYXY坐标此格式通过左上角和右下角的绝对像素值定义一个矩形框。对于可视化工具而言,这种格式具有直观性,例如 OpenCVMatplotlib 在图像上直接绘制矩形时非常直观。
  • XYWH格式 常见于数据集如 COCO,该方法通过 先标注目标中心点,再标注边界框宽高来定义。这种表示方式对 学习过程中损失函数的计算 至关重要。
  • 归一化坐标 为确保跨不同分辨率图像的可扩展性, 坐标通常会被缩放至0到1的区间。这有助于模型在分析不同维度的输入时 获得更好的泛化能力。

实际应用

边界框是众多行业中无数人工智能解决方案的基础构建模块。通过实现精准定位,它们使系统能够与物理世界进行智能交互。

  • 自动驾驶汽车 自动驾驶汽车通过边界框实时detect track 、其他车辆、交通标志及障碍物。 这种空间感知能力对导航和安全系统做出瞬时决策至关重要。
  • 零售分析在智能商店中, 边界框技术可实时监测货架库存状况,track 与商品的互动行为。这些数据能自动执行补货操作,同时无需人工清点即可洞察购物者行为模式。

边界框实战

在使用现代架构时,如 YOLO26模型 预测边界框,同时提供类别标签和一个 信心分数以下示例演示了如何 对图像进行推理并使用 ultralytics 包装

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

相关术语与区分

虽然边界框是通用检测的标准标注类型,但它们与更精细任务中使用的其他标注类型截然不同。

  • 实例分割 与矩形边界框不同,分割会生成像素级精确的遮罩,精准勾勒出物体的轮廓。当精确形状比大致位置更重要时,这种方法尤为实用。
  • 定向边界框(旋转框检测)标准边界框为轴向对齐(垂直矩形)。定向边界框可旋转以适配倾斜物体,例如卫星图像中的船舶或传送带上的包裹,从而实现更紧密的适配并减少背景噪声。
  • 关键点与包裹物体不同,关键点用于标识特定地标,例如人体关节,姿势估计

注释与管理工具

创建高质量的边界框标注是机器学习管道中的关键步骤。Ultralytics 通过提供数据标注和数据集管理工具简化了这一流程。正确的标注确保模型能够准确区分对象,最大限度地减少过拟合或背景混淆等错误。 在推理阶段采用 非最大抑制(NMS)等 高级技术,通过消除重叠边界框来优化预测结果,确保每个目标仅保留最精确的检测结果。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入