术语表

卷积神经网络(CNN)

了解卷积神经网络 (CNN) 如何彻底改变计算机视觉,为医疗保健、自动驾驶汽车等领域的人工智能提供动力。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

卷积神经网络(CNN)是一种专门的神经网络(NN),尤其适用于处理网格状数据,如图像和视频。与将输入视为平面向量的传统神经网络不同,卷积神经网络旨在直接从输入数据中自动、自适应地学习空间层次特征。这主要是通过应用卷积操作实现的,使其成为现代计算机视觉(CV)的基石,并推动了人工智能(AI)的重大进步。它们能够捕捉局部依赖性和空间关系,因此非常适合像素排列非常重要的任务。

核心组件和功能

CNN 通常由处理和转换视觉信息的几个关键层构成:

  • 卷积层:这些是 CNN 的基础层。它们在输入图像上应用一组可学习的滤波器(核)。每个滤波器检测特定的特征,如边缘、角落或纹理。当滤波器在输入图像上滑动(卷积)时,就会产生突出检测到的特征的位置和强度的特征图。在模型训练过程中,网络会自动学习这些滤波器。
  • 激活层:继卷积层之后,ReLU(整流线性单元)Leaky ReLU激活函数引入了非线性。这样,网络就能学习到更复杂的模式,超越简单的线性组合。
  • 汇集层:这些层可以减少特征图的空间维度(宽度和高度),降低计算负荷并控制过度拟合。常见的方法包括最大池化(Max Pooling),即在局部区域取最大值,帮助网络更好地适应特征位置的变化。池化方法概述可提供更多细节。
  • 全连接层:这些层通常位于网络的末端,将上一层的每个神经元与当前层的每个神经元连接起来,类似于传统的前馈神经网络。它们使用卷积层和池化层提取的高级特征来执行分类或回归任务,比如为图像分配最终标签。

与其他神经网络的主要区别

CNN 具有区别于其他网络类型的独特特征:

  • 空间层次:与基本的 NN 不同,CNN 可明确建立空间关系模型。早期层检测简单的特征(边缘),而更深的层则结合这些特征识别更复杂的模式(形状、物体)。这种层次结构模仿了人类视觉处理的某些方面。
  • 参数共享:在输入图像的不同部分应用单个滤波器,与处理相同图像的全连接网络相比,大大减少了参数总数。这使得 CNN 更为高效,不易过度拟合,尤其是在处理大型图像时。滤波器在任何一点所覆盖的区域称为其感受野
  • 平移不变性:由于采用了池化和参数共享技术,即使物体在图像中的位置稍有移动,CNN 也能识别出来。
  • 与递归神经网络(RNN)的对比:CNN 擅长处理图像等空间数据,而递归神经网络 (RNN)则专为顺序数据而设计,因此适用于自然语言处理 (NLP)时间序列分析等任务。

实际应用

CNN 是各个领域取得众多突破的推动力:

  1. 医学图像分析:医疗保健领域的人工智能中,CNN 可分析 X 光、CT 和 MRI 等医学扫描图像。它们协助放射科医生检测肿瘤、骨折或糖尿病视网膜病变等细微异常。发表在《放射学》等期刊上的研究成果:人工智能》等期刊上发表的研究报告展示了 CNN 识别疾病指示模式的能力,而且通常能达到很高的准确率。例如,像 Ultralytics YOLO等模型可用于医学成像中的肿瘤检测等任务,展示了基于 CNN 的架构在医学图像分析中的实际应用。
  2. 自动驾驶汽车:CNN 对于自动驾驶汽车中的人工智能至关重要。它们为感知系统提供动力,该系统利用摄像头和激光雷达的数据进行实时物体检测,以识别行人、车辆、交通标志和车道标记。这样,汽车就能了解周围环境,做出安全的驾驶决策。Waymo等公司的自动驾驶系统在很大程度上依赖于 CNN。CNN 还有助于图像分割,使车辆能够区分可驾驶区域和障碍物。

工具和框架

强大的深度学习(DL)工具和框架为开发和部署 CNN 提供了支持:

阅读全部