术语表

卷积

了解卷积如何为计算机视觉中的人工智能提供动力,使物体检测、图像识别和医学成像等任务得以精确完成。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

卷积是广泛应用于人工智能,尤其是计算机视觉(CV)领域的一种基本数学运算。它构成了卷积神经网络(CNN)的核心构件,使这些网络能够有效地从网格状数据(如图像)中学习分层模式。这一过程包括在输入信号或图像上应用小型滤波器(通常称为内核),以产生称为特征图的输出。这些特征图突出了特定的模式,如核检测到的边缘、纹理或形状。

卷积如何工作

想象一下,在一幅较大的图像(输入)上滑动一个小放大镜(内核)。在每个位置,放大镜都会聚焦于图像的一小块区域。卷积操作使用内核定义的权重计算出该小块内像素值的加权和。计算出的单个值将成为输出特征图中的一个像素。内核系统地在整个输入图像上逐步滑动(由一个称为 "步长 "的参数定义),从而创建一个完整的特征图。不同的内核用于检测不同的特征;例如,一个内核可能检测水平边缘,而另一个内核则检测角落。通过在单层中使用多个内核,CNN 可以从输入中提取丰富的特征。您可以在斯坦福 CS231n 课程笔记等资源中探索有关这一过程的可视化解释。

卷积的关键组成部分

  • 输入数据:通常是多通道图像(如 RGB 通道)或上一层的输出特征图。
  • 内核(滤波器):定义待检测特征的小型权重矩阵。这些权重是在模型训练过程中学习的。
  • 特征图:卷积操作的输出结果,表示检测到的特征的存在和空间位置。
  • 步长内核每一步在输入上移动的像素数。
  • 填充在输入图像的边界周围添加像素(通常为零),以控制输出特征图的空间尺寸。

卷积的应用

卷积层在许多现代人工智能应用中都是必不可少的:

1.物体检测

物体检测中,CNN 使用卷积来识别物体,并通过边界框确定物体在图像中的位置。像 Ultralytics YOLO等模型严重依赖卷积层来提取不同尺度的特征,从而高效地检测各种物体。这对于自动驾驶汽车等应用至关重要,因为在这些应用中,实时检测行人、汽车和交通标志对安全至关重要。了解更多有关汽车人工智能解决方案的信息。

2.医学图像分析

卷积在医学图像分析中发挥着重要作用,可帮助放射科医生分析 X 射线、CT 和 MRI 等扫描图像。使用 CNN 的人工智能模型可以检测出肿瘤或骨折等细微异常,通常比人类专家更快,有时甚至更准确。例如,使用 YOLOv11 进行肿瘤检测就证明了这一能力。了解更多有关人工智能在医疗保健解决方案中的应用。

卷积与相关概念

卷积通常与神经网络中的其他操作和概念一起使用:

  • 池化:在卷积提取特征的同时,池化层(如最大池化或平均池化)会降低特征图的空间维度(降采样)。这有助于减少计算负荷,并使特征表示对微小的空间变化更加稳健。池化可以总结区域内的特征,而卷积则可以提取特征。更多详情,请参阅CNN 中池化层的相关资料。
  • 特征提取:这是一个更宽泛的术语,指的是将原始数据转化为可用于机器学习的数字特征的过程。卷积是从网格状数据中自动提取特征的一种特殊而高效的技术,尤其适用于 CNN。
  • 全连接层:卷积层在局部应用核并共享权重,而全连接层则不同,它将上一层的每个神经元与当前层的每个神经元连接起来。它们通常出现在 CNN 架构的末端,根据卷积层和池化层提取的高级特征执行分类或回归。了解有关神经网络 (NN) 基础知识的更多信息。

了解卷积是掌握许多先进人工智能模型(包括Ultralytics HUB 提供的模型)如何解释视觉信息的关键。像 PyTorchTensorFlow等框架提供了卷积操作的高效实现。OpenCV等库也将卷积用于模糊和锐化等传统图像处理任务。

阅读全部