了解边界框如何在计算机视觉中定义物体位置。探索坐标格式、实际应用场景,以及如何Ultralytics 。
边界框是由一组坐标定义的矩形区域,用于包围图像或视频帧中的特定对象。在计算机视觉(CV)领域,这些边界框作为基础标注,用于训练人工智能(AI)系统定位和识别不同物体。 与简单地将整张图像归类为"包含汽车"不同, 边界框能让模型精确定位汽车的位置及空间范围, 将其与背景及其他物体分离。这种定位能力对物体检测任务至关重要, 该任务旨在同时高精度识别多个物体。
为有效处理视觉数据, 机器学习(ML)模型依赖特定坐标系 以数学方式表示边界框。所选格式通常决定了 数据如何为模型训练做准备,以及模型如何输出预测结果。
边界框是众多行业中无数人工智能解决方案的基础构建模块。通过实现精准定位,它们使系统能够与物理世界进行智能交互。
在使用现代架构时,如 YOLO26模型
预测边界框,同时提供类别标签和一个
信心分数以下示例演示了如何
对图像进行推理并使用 ultralytics 包装
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])
虽然边界框是通用检测的标准标注类型,但它们与更精细任务中使用的其他标注类型截然不同。
创建高质量的边界框标注是机器学习管道中的关键步骤。Ultralytics 通过提供数据标注和数据集管理工具简化了这一流程。正确的标注确保模型能够准确区分对象,最大限度地减少过拟合或背景混淆等错误。 在推理阶段采用 非最大抑制(NMS)等 高级技术,通过消除重叠边界框来优化预测结果,确保每个目标仅保留最精确的检测结果。