术语表

卷积

了解卷积如何为计算机视觉中的人工智能提供动力,使物体检测、图像识别和医学成像等任务得以精确完成。

卷积是深度学习(DL)的基本操作,尤其是在计算机视觉(CV)领域。它是卷积神经网络(CNN)的主要构建模块,使模型能够自动、高效地从网格状数据(如图像)中学习分层特征。这一过程包括在输入图像上滑动一个被称为内核的小型滤波器,以生成突出边缘、纹理或形状等特定模式的特征图。这种方法受到动物视觉皮层组织的启发,对于数据点之间的空间关系非常重要的任务非常有效。

卷积如何工作

卷积的核心是合并两组信息的数学运算。在 CNN 中,它将输入数据(图像的像素值)与内核相结合。核是一个小的权重矩阵,起着特征检测器的作用。核在输入图像的高度和宽度上滑动,在每个位置与图像的重叠部分进行元素乘法运算。结果相加,在输出特征图中形成一个像素。这一滑动过程在整个图像中重复进行。

通过使用不同的内核,CNN 可以学会检测各种特征。早期层可以学习识别边缘和颜色等简单模式,而更深的层则可以结合这些基本特征来识别眼睛、车轮或文字等更复杂的结构。这种建立视觉特征层次结构的能力正是 CNN 在视觉任务中的强大功能所在。这一过程通过两个关键原则实现高效计算:

  • 参数共享:在整个图像中使用相同的内核,与全连接网络相比,大大减少了可学习参数的总数。这种高效使用参数的概念也有助于模型更好地泛化。
  • 空间位置性:该操作假定相邻像素之间的关系比相距较远的像素之间的关系更紧密,这种强烈的归纳偏差对自然图像非常有效。

深度学习的重要性

卷积是现代计算机视觉的基石。Ultralytics YOLO等模型在其骨干架构中广泛使用卷积层,以实现强大的特征提取功能。这使得从物体检测图像分割到更复杂的任务等各种应用成为可能。卷积的高效性和有效性使其成为处理图像和其他空间数据的首选方法,并构成了视觉模型历史等资源中详述的许多最先进架构的基础。

实际应用

  • 医学图像分析医疗保健领域的人工智能中,CNN 使用卷积来分析核磁共振成像或 CT 等医学扫描图像。通过训练,核可以检测出肿瘤或其他异常特征的特定纹理和形状,从而帮助放射科医生做出更快、更准确的诊断。您可以在《放射学》等期刊上阅读更多有关这些进展的信息:人工智能
  • 自动驾驶汽车自动驾驶汽车依靠 CNN 感知周围环境。卷积实时处理来自摄像头的输入,以识别行人、其他车辆、车道和路标。这样,汽车系统就能全面了解周围环境并安全导航,这在Waymo 等公司开发的技术中可见一斑。

卷积与相关概念

将卷积与其他神经网络操作区分开来很有帮助:

  • 全连接层:在全连接层中,每个神经元都与上一层的每个神经元相连。对于图像来说,这种方法效率极低,因为它忽略了空间结构,导致参数数量庞大。卷积具有局部连通性和参数共享性,可扩展性更强,更适合图像数据。
  • 视觉变换器(ViT):与 CNN 的局部特征检测不同,视觉变换器使用自我注意机制来模拟不同图像片段之间的全局关系。虽然功能强大,但视觉变换器通常需要更大的数据集来从头学习这些关系,而卷积的归纳偏差使其更节省数据。混合模型,如RT-DETR,旨在结合两种方法的优势。

工具和培训

各种深度学习框架为使用卷积技术实现和训练模型提供了便利。PyTorch(PyTorch 官方网站)和TensorFlow(TensorFlow 官方网站)等库为构建 CNN 提供了强大的工具。Keras等高级应用程序接口进一步简化了开发过程。

为了简化体验,Ultralytics HUB等平台允许用户管理数据集、执行模型训练并轻松部署YOLO11等功能强大的模型。了解卷积、核大小步长、填充和由此产生的感受野等核心概念对于有效的模型训练和架构设计至关重要。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板