深圳Yolo 视觉
深圳
立即加入
词汇表

目标检测架构

探索目标检测架构,从骨干网络到检测头。了解Ultralytics 如何为实时计算机视觉提供卓越的速度与精度。

目标检测架构是用于识别和定位视觉数据中物体的神经网络结构蓝图。在更广阔的计算机视觉(CV)领域中,这些架构通过将原始像素数据处理为有意义的洞察,定义了机器"视觉"的实现方式。 不同于仅对图像进行标注的基本分类模型,物体检测架构旨在为每个检测到的独立物体输出边界框、类别标签及置信度评分。这种结构设计决定了模型的运行速度、识别精度与计算效率,使其成为选择实时推理或高精度分析模型时的关键考量因素。

架构的核心组件

尽管具体设计各不相同,但大多数现代架构都包含三个基本组件:主干、颈部和头部。主干作为主要特征提取器,通常采用卷积神经网络(CNN)架构,该网络预先在大型数据集(如ImageNet)上进行训练。 ImageNet, 负责识别基础形状、边缘和纹理。主流骨干网络选择包括 ResNet和CSPDarknet。

颈部连接主干网络与最终输出层,其作用是混合融合主干网络不同阶段的特征,确保模型能detect 不同尺寸的detect ——这一概念称为多尺度特征融合。 架构通常在此处采用特征金字塔网络(FPN)或路径聚合网络(PANet)来丰富传递至预测层的语义信息。最终,检测头处理这些融合特征,从而预测每个目标的具体类别及坐标位置。

进化:两阶段与单阶段

历史上,架构主要分为两大类。两阶段检测器如R-CNN家族)首先提出可能存在目标的感兴趣区域(RoI),然后在第二阶段classify 区域classify 。虽然这类方法通常准确,但其计算量往往过大,难以在边缘设备上运行。

相比之下,单阶段检测器将检测视为简单的回归问题,通过单次遍历直接将图像像素映射到边界框坐标和类别概率。这种由YOLO (You Only Look Once)家族开创的方法,通过实现实时性能彻底改变了行业格局。 现代技术发展最终催生了YOLOv6等模型,不仅提供卓越速度,更采用了端到端、NMS架构。通过消除后处理中非最大抑制(NMS)的需求,这些新型架构显著降低了延迟波动性——这对安全关键型系统至关重要。

实际应用

架构的选择直接影响着人工智能解决方案在各行业的成功。

  • 零售自动化: 在智能超市中,高效的一级架构支持自动结账系统,该系统能即时识别传送带或购物车中的商品,从而缩短等待时间并减少人为失误。
  • 医学诊断:高精度架构应用于医学影像分析,用于detect X光或MRI扫描中的detect (如肿瘤)。在此场景中,架构保留精细细节的能力比原始处理速度更为关键。

区分相关术语

区分检测架构与类似计算机视觉任务至关重要:

  • vs. 图像分类: 图像分类架构(如VGG或EfficientNet)为整张图像分配单一标签(例如"猫")。它不会告知猫的位置或是否存在多只猫,而这正是检测架构的核心功能。
  • 与实例分割对比:检测仅在目标周围添加边界框, 而实例分割能精确识别每个目标的像素级轮廓(遮罩)。 分割架构通常是检测架构的扩展(例如在检测头部添加遮罩分支)。

利用Ultralytics实施

现代框架已将这些架构的复杂性抽象化,使开发者能够以最少的代码量利用最先进的设计。使用 ultralytics 包,你可以加载一个预训练的 YOLO26 立即构建模型并运行推理。对于希望在云端管理数据集并训练自定义架构的团队, Ultralytics 平台 简化了整个机器学习运维(MLOps)流程。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入