术语表

物体检测架构

探索对象检测架构的强大功能,这是理解图像的人工智能支柱。立即了解类型、工具和实际应用!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

物体检测架构是人工智能(AI)系统解读视觉信息的基本结构。这些专门的神经网络不仅能对图像中物体进行分类(识别存在的物体),还能对其进行精确定位,通常是在每个检测到的实例周围绘制边框。对于熟悉机器学习(ML)基本概念的人来说,了解这些架构对于充分利用现代计算机视觉(CV)的功能至关重要。它们构成了使机器能够以类似人类的方式 "观察 "和理解世界的系统的支柱。

核心部件

大多数物体检测架构都由几个共同工作的关键组件组成。骨干网络通常是卷积神经网络(CNN),负责从输入图像中进行初始特征提取,识别边缘和纹理等低级模式以及逐渐复杂的特征。随后通常会有一个 "颈部 "组件,汇总来自骨干网不同阶段的特征,以创建更丰富的表征,适用于在不同尺度上检测物体。最后,检测头使用这些特征来预测物体的类别和位置(边界框坐标)。性能的衡量标准通常有:评估定位精度的 "交集大于联合"(IoU)和评估整体检测质量的 "平均精度"(mAP),详细解释可参考COCO 数据集评估页面等网站。

架构类型

物体检测架构可根据其方法进行大致分类:

与类似术语的区别

必须将物体检测架构与相关的计算机视觉任务区分开来:

  • 图像分类为整幅图像指定一个标签(如 "猫"、"狗")。它能全面识别图像中的内容,但不能识别特定对象的位置。有关示例,请参阅Ultralytics 分类任务文档
  • 语义分割将图像中的每个像素归入一个预定义的类别(例如,所有属于汽车的像素都标记为 "汽车")。它能提供密集预测,但不能区分同一对象类别的不同实例。
  • 实例分割比语义分割更进一步,对每个像素进行分类,并区分各个物体实例(例如,标注 "汽车 1"、"汽车 2")。它结合了物体检测和语义分割。更多详情请查看Ultralytics 分割任务文档

实际应用

物体检测架构为各行各业的众多人工智能应用提供了动力:

工具和技术

开发和部署基于这些架构的模型通常需要专门的工具和框架:

阅读全部