了解卷积如何为计算机视觉中的人工智能提供动力,使物体检测、图像识别和医学成像等任务得以精确完成。
卷积是深度学习(DL)的基本操作,尤其是在计算机视觉(CV)领域。它是卷积神经网络(CNN)的主要构建模块,使模型能够自动、高效地从网格状数据(如图像)中学习分层特征。这一过程包括在输入图像上滑动一个被称为内核的小型滤波器,以生成突出边缘、纹理或形状等特定模式的特征图。这种方法受到动物视觉皮层组织的启发,对于数据点之间的空间关系非常重要的任务非常有效。
卷积的核心是合并两组信息的数学运算。在 CNN 中,它将输入数据(图像的像素值)与内核相结合。核是一个小的权重矩阵,起着特征检测器的作用。核在输入图像的高度和宽度上滑动,在每个位置与图像的重叠部分进行元素乘法运算。结果相加,在输出特征图中形成一个像素。这一滑动过程在整个图像中重复进行。
通过使用不同的内核,CNN 可以学会检测各种特征。早期层可以学习识别边缘和颜色等简单模式,而更深的层则可以结合这些基本特征来识别眼睛、车轮或文字等更复杂的结构。这种建立视觉特征层次结构的能力正是 CNN 在视觉任务中的强大功能所在。这一过程通过两个关键原则实现高效计算:
卷积是现代计算机视觉的基石。Ultralytics YOLO等模型在其骨干架构中广泛使用卷积层,以实现强大的特征提取功能。这使得从物体检测和图像分割到更复杂的任务等各种应用成为可能。卷积的高效性和有效性使其成为处理图像和其他空间数据的首选方法,并构成了视觉模型历史等资源中详述的许多最先进架构的基础。
将卷积与其他神经网络操作区分开来很有帮助:
各种深度学习框架为使用卷积技术实现和训练模型提供了便利。PyTorch(PyTorch 官方网站)和TensorFlow(TensorFlow 官方网站)等库为构建 CNN 提供了强大的工具。Keras等高级应用程序接口进一步简化了开发过程。
为了简化体验,Ultralytics HUB等平台允许用户管理数据集、执行模型训练并轻松部署YOLO11等功能强大的模型。了解卷积、核大小、步长、填充和由此产生的感受野等核心概念对于有效的模型训练和架构设计至关重要。