术语表

骨干网

了解骨干网在深度学习中的作用,探索 ResNet 和 ViT 等顶级架构,并学习它们在现实世界中的人工智能应用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

在深度学习中,尤其是在计算机视觉(CV)领域,"骨干 "指的是神经网络(NN)模型中的初始、基础层集。其主要目的是特征提取:处理原始输入数据(如图像),并将其转换为紧凑、信息丰富的表示。这种表征通常称为特征图,可以捕捉输入数据中的基本模式、纹理和形状。可以把骨干网想象成人工智能的眼睛,在进行更高层次的推理之前进行初步解释。这种基础处理对于模型在后续任务中理解和解释视觉信息的整体能力至关重要。

核心功能

典型的骨干网络由一系列层组成,通常包括卷积层、池化层(减少空间维度)和激活函数(引入非线性)。当输入数据通过这些层时,网络会逐步学习分层特征。早期的层可能会检测到边缘和角落等简单的元素,而更深的层则会将这些简单的特征结合起来,从而识别出更复杂的结构、物体的部分,并最终识别出整个物体。骨干网络生成的输出是一组高级特征图,这些特征图概括了原始输入的关键信息。这一过程有效地降低了数据的维度,同时保留了数据的语义,为许多成功的深度学习模型奠定了基础。

在计算机视觉模型中的作用

在为物体检测实例分割姿态估计等任务设计的复杂计算机视觉模型中,主干部分提供了基本的特征表示。其后的组件,通常称为 "颈部"(细化和聚合特征)和 "头部"(执行最终任务预测),建立在骨干提取的特征之上。例如,检测头使用这些细化的特征来预测检测到的物体周围的边界框及其相应的类别。骨干网与这些后期阶段不同;它的唯一重点是从输入数据中生成强大的、通常是通用的特征表示。常见的做法是使用在ImageNet等大型数据集上预先训练好的骨干,然后利用迁移学习针对特定的下游任务对其进行微调,从而大大加快训练过程

常见的主干架构

几种成熟的神经网络架构因其在特征提取方面的有效性而经常被用作骨干网络:

骨干网的选择对模型的性能特征有很大影响,包括速度、计算成本(FLOPs)和精度,这在各种模型比较中都有突出表现。像 PyTorchTensorFlow等框架以及OpenCV 等库是实现和利用这些骨干的基本工具。Ultralytics HUB等平台进一步简化了使用不同骨干模型的过程。

区分骨干网与相关术语

重要的是,不要将骨干网与整个神经网络或其他特定组件混淆:

  • 整个神经网络:骨干网只是更大网络架构中的一部分,通常是初始特征提取部分。完整的网络还包括负责特定任务预测的颈部和头部。
  • 检测头:这是物体检测模型的最后一部分,它获取特征(通常由骨干和颈部处理)并输出边界框坐标和类概率。与通用性更强的主干不同,它是针对特定任务的。
  • 特征提取器:虽然主干一个特征提取器,但 "特征提取器 "一词有时也指网络中提取特征的任何部分,甚至是深度学习之外的独立特征提取算法(如 SIFT 或 HOG)。在现代深度学习架构中,如 Ultralytics YOLO等现代深度学习架构中,"骨干 "特指初始卷积基础。

实际应用

骨干网是无数人工智能应用的基础组件:

  1. 自动驾驶: 自动驾驶汽车系统在很大程度上依赖于强大的骨干网(如 ResNet 或 EfficientNet 变体)来处理来自摄像头和激光雷达传感器的输入。提取的特征可用于车辆、行人、交通信号灯和车道线的检测和分类,这对安全导航和决策至关重要,Waymo 等公司开发的系统就是如此。
  2. 医疗图像分析:在医疗人工智能解决方案中,骨干网用于分析 X 光、CT 或 MRI 等医学扫描。例如,像 DenseNet 这样的骨干网可以从胸部 X 光片中提取特征,帮助检测肺炎迹象,或从 CT 扫描中提取特征,识别潜在肿瘤(《放射学:人工智能》中的相关研究)。这有助于放射科医生进行诊断和制定治疗计划。像 YOLO11这样的超分析模型可以通过利用强大的骨干力量来适应肿瘤检测等任务。
阅读全部