术语表

U-Net

了解用于语义分割的强大 CNN 架构 U-Net。了解其在医疗、卫星和自主成像中的应用。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

U-Net 是一种专门的卷积神经网络(CNN)架构,最初是为生物医学图像分割任务而开发的。其独特的 U 型结构即使在训练数据有限的情况下,也能对图像中的对象进行精确定位和分割。U-Net 由 Olaf Ronneberger、Philipp Fischer 和 Thomas Brox 于 2015 年推出,由于其在各种需要像素级分类的计算机视觉(CV)应用中的有效性,U-Net 的影响力迅速超越了最初的领域。

核心架构

U-Net 结构由两条主要路径组成:一条收缩路径(编码器)和一条扩张路径(解码器),形成其特有的 "U "形。

  1. 收缩路径(编码器):它采用典型的 CNN 结构。它涉及反复应用卷积,然后是ReLU(整流线性单元)激活函数和最大池化操作。这条路径通过逐步降低空间分辨率来捕捉输入图像的上下文,同时增加特征图的数量,从而有效地将图像编码为紧凑的表示形式。这一概念是许多编码器-解码器架构的基础。
  2. 扩展路径(解码器):该路径对称地将特征图扩展回原始图像分辨率。它由提高分辨率的上卷积(或转置卷积)和标准卷积组成。最重要的是,扩展路径中的每一步都通过跳转连接将上卷积特征图与收缩路径中相应的高分辨率特征图连接起来。
  3. 跳过连接:这是 U-Net 的标志。它们将编码器中的特征图直接连接到解码器中的相应层。这使得解码器可以重复使用编码器学习到的高分辨率空间信息,这对于在最终分割图中实现精确定位至关重要。对跳转连接的解释可以提供进一步的背景信息。

主要特点和优势

U-Net 的设计具有多项优势,尤其适用于细分任务:

  • 精确定位:跳转连接使网络能够将深层次的上下文信息(来自编码器底层)与细粒度的空间细节(来自编码器前层)结合起来。
  • 有限数据下的效率:即使在数据集较小的情况下,它也能表现出色,这在医学图像分析中很常见,因为注释数据可能很少。
  • 端对端训练:整个网络可以直接从输入图像训练到输出分割图。

实际应用

虽然 U-Net 最初是为生物医学成像而设计的,但其架构具有多功能性:

  • 医学图像分割:它的主要应用是分割显微镜图像中的细胞、识别 CT 或 MRI 扫描中的肿瘤以及定位器官。最初的 U-Net 论文详细介绍了它在细胞追踪挑战中取得的成功。您可以在生物医学图像分割评论中找到更多实例。
  • 卫星图像分析:U-Net 可用于卫星图像分析,以绘制土地覆盖图、探测道路或建筑物以及监测环境变化。各种遥感应用都利用了 U-Net 变体。

将 U-Net 与类似概念区分开来

U-Net 主要侧重于语义分割,为每个像素分配一个类别标签。这与实例分割不同,后者是区分属于同一类别的物体的单个实例。虽然 U-Net 可用于实例分割,但Mask R-CNN等模型通常更直接适用于该任务。现代模型如 Ultralytics YOLOv8等现代模型也提供了强大的分割功能,通常针对速度和实时性能进行了优化,可能使用了受深度学习进步影响的不同架构方法。

培训和工具

U-Net 的训练需要像素级的注释数据,即训练图像中的每个像素都标注了相应的类别。这一过程被称为数据标注,通常是劳动密集型的。U-Net 模型通常使用流行的深度学习框架来实现和训练,例如 PyTorchTensorFlow.

阅读全部