了解卷积如何为计算机视觉中的人工智能提供动力,使物体检测、图像识别和医学成像等任务得以精确完成。
卷积是广泛应用于人工智能,尤其是计算机视觉(CV)领域的一种基本数学运算。它构成了卷积神经网络(CNN)的核心构件,使这些网络能够有效地从网格状数据(如图像)中学习分层模式。这一过程包括在输入信号或图像上应用小型滤波器(通常称为内核),以产生称为特征图的输出。这些特征图突出了特定的模式,如核检测到的边缘、纹理或形状。
想象一下,在一幅较大的图像(输入)上滑动一个小放大镜(内核)。在每个位置,放大镜都会聚焦于图像的一小块区域。卷积操作使用内核定义的权重计算出该小块内像素值的加权和。计算出的单个值将成为输出特征图中的一个像素。内核系统地在整个输入图像上逐步滑动(由一个称为 "步长 "的参数定义),从而创建一个完整的特征图。不同的内核用于检测不同的特征;例如,一个内核可能检测水平边缘,而另一个内核则检测角落。通过在单层中使用多个内核,CNN 可以从输入中提取丰富的特征。您可以在斯坦福 CS231n 课程笔记等资源中探索有关这一过程的可视化解释。
卷积层在许多现代人工智能应用中都是必不可少的:
在物体检测中,CNN 使用卷积来识别物体,并通过边界框确定物体在图像中的位置。像 Ultralytics YOLO等模型严重依赖卷积层来提取不同尺度的特征,从而高效地检测各种物体。这对于自动驾驶汽车等应用至关重要,因为在这些应用中,实时检测行人、汽车和交通标志对安全至关重要。了解更多有关汽车人工智能解决方案的信息。
卷积在医学图像分析中发挥着重要作用,可帮助放射科医生分析 X 射线、CT 和 MRI 等扫描图像。使用 CNN 的人工智能模型可以检测出肿瘤或骨折等细微异常,通常比人类专家更快,有时甚至更准确。例如,使用 YOLOv11 进行肿瘤检测就证明了这一能力。了解更多有关人工智能在医疗保健解决方案中的应用。
卷积通常与神经网络中的其他操作和概念一起使用:
了解卷积是掌握许多先进人工智能模型(包括Ultralytics HUB 提供的模型)如何解释视觉信息的关键。像 PyTorch和 TensorFlow等框架提供了卷积操作的高效实现。OpenCV等库也将卷积用于模糊和锐化等传统图像处理任务。