术语表

感受场

了解接收场在计算机视觉 CNN 中的重要性。了解它们如何影响物体检测、分割和人工智能优化。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

感受野是卷积神经网络(CNN)中的一个基本概念,尤其与计算机视觉(CV)相关。它指的是输入数据(如图像或特征图)中影响后续层中特定神经元或单元激活的特定区域。这一概念源于神经科学,它描述了能引起感觉神经元响应的感觉空间区域,并直接转化为 CNN 中的人工神经元如何 "看到 "输入。了解感受野对于为各种任务设计有效的网络架构至关重要。

卷积神经网络的重要性

在 CNN 中,层通常是堆叠的。每个卷积层对其输入进行过滤(内核)。给定层中的神经元只与前一层输出的一小块区域相连--该区域与核大小相对应。然而,随着网络的深入,单个神经元的激活会逐渐受到原始输入图像更大区域的影响。这是因为每个神经元都会整合来自上一层神经元感受野的信息。感受野大小的这种分层增加使 CNN 能够学习不同尺度的特征,从早期层的简单边缘和纹理到较深层的复杂物体和模式。无论是识别小物体还是对整个场景进行分类,适当管理感受野大小是确保网络能够捕捉与任务相关的上下文的关键。

影响感受野大小的因素

有几种架构选择会影响 CNN 中神经元的有效感受野大小:

  • 内核大小:较大的内核可直接增加单层的感受野。
  • 步长内核在输入端移动的步长。步长越大,深层感受野增加越快,但空间分辨率会降低。
  • 汇集图层:最大池化等操作会降低特征图的采样率,从而有效增加后续图层相对于原始输入的感受野。有关池化的更多详情,请点击此处
  • 扩张卷积(Arous 卷积):它们在内核元素之间引入间隙,使内核能够覆盖更大的区域,而不会增加参数数量或计算成本。DeepLab 等研究详细介绍了这种技术
  • 网络深度:堆叠更多层是增加感受野大小的最常见方法。更深的网络在其最终层中固有更大的感受野。

不同任务中的感知场

最佳感受野大小在很大程度上取决于具体的计算机视觉任务:

  • 图像分类通常需要在最终层中有一个大的感受野,最好能覆盖整个图像,以便根据所有视觉信息做出全局决策。模型可以在ImageNet 等数据集上进行训练。
  • 物体探测需要不同大小的感受野来检测不同尺度的物体。Ultralytics YOLO 等架构通常采用特征金字塔网络 (FPN) 等技术来生成具有不同感受野的特征图。检测小型物体需要较小的感受野,而大型物体则需要较大的感受野。探索不同YOLO 模型之间的比较,了解架构如何处理这一问题。
  • 语义分割需要密集的像素级预测。虽然上下文需要较大的感受野,但保持空间分辨率也至关重要。为了在不损失分辨率的情况下增加感受野,稀释卷积通常被用于此目的。查看裂缝分割等任务。
  • 实例分割结合了物体检测和语义分割,因此既需要不同的感受野来进行检测,又需要细粒度的空间信息来屏蔽单个实例。Ultralytics YOLO11 支持实例分割

真实世界应用实例

  1. 自动驾驶汽车自动驾驶汽车中的物体检测系统(如Waymo 等公司开发的系统)需要识别不同大小和距离的行人、其他车辆、交通信号灯和车道标记。具有精心设计的感受野的 CNN,有可能使用像 YOLOv8RT-DETR等模型,使系统能够同时感知附近的小型障碍物(需要较小的感受野)和远处的大型车辆或路标(需要较大的感受野)。汽车解决方案中的人工智能通常依赖于这种能力
  2. 医学图像分析在分析医学扫描图像(如 CT、核磁共振成像)以检测肿瘤或病变等异常情况时(见肿瘤检测示例),感受野的大小至关重要。感受野过小可能会错过较大的结构或上下文信息,而感受野过大则可能会忽略重要的局部细节。用于放射学人工智能的模型必须平衡感受野的大小,以捕捉小病变的细微纹理和更广泛的解剖背景。在脑肿瘤数据集等数据集上进行有效的模型训练就必须考虑到这种平衡。

相关概念和工具

对感受野的理解与内核大小步长、填充和整体网络结构等概念密切相关。内核定义了局部连接模式,而感受野则描述了对输入的累积效应。各种深度学习框架,如 PyTorchTensorFlow实现了这些概念。有一些工具可以帮助可视化CNN 的感受野,有助于架构设计和调试。在使用诸如 Ultralytics YOLO11等模型时,对感受野Ultralytics 认识有助于为特定检测或分割任务选择合适的模型大小或配置。

阅读全部