了解用于语义分割的强大 CNN 架构 U-Net。了解其在医疗、卫星和自主成像中的应用。
U-Net 是一种卷积神经网络 (CNN) 架构,专为快速精确的图像分割而设计。它最初是为生物医学图像分割而开发的,其创新的 U 型结构使其成为计算机视觉(CV)领域的基础模型。该架构之所以特别有效,是因为它可以在相对较少的图像上进行端到端训练,但仍能生成高度精确的分割掩码,因此非常适合数据稀缺的领域。您可以在我们的U-Net 架构及其应用指南中了解有关其核心概念的更多信息。
U-Net 架构因其独特的 U 形而得名。它由两条主要路径组成:捕捉上下文的收缩路径(编码器)和实现精确定位的对称扩展路径(解码器)。这种设计使其能够有效地将高级上下文信息与细粒度空间细节相结合。
收缩路径(编码器):这是一个典型的卷积神经网络。它由重复的卷积和池化操作块组成。编码器会逐渐对图像进行低采样,在增加特征通道数量的同时降低空间维度。这一过程允许网络学习分层特征,捕捉图像的更广泛背景。
扩展路径(解码器):解码器的工作是获取编码器的压缩特征表示并重建高分辨率分割图。解码器通过一系列的 "上旋"(或转置卷积)来实现这一目的,在减少特征通道的同时增加空间维度。
跳转连接:U-Net 最关键的创新是使用跳转连接。这些连接将编码器中的特征图直接连接到解码器中的相应层。这使得解码器可以重复使用早期编码器层的高分辨率特征,从而帮助解码器恢复在降采样过程中经常丢失的精细细节。这种浅层和深层特征的融合是 U-Net 精确定位能力的关键。最初的U-Net 论文提供了详细的技术细节。
U-Net 能够利用有限的数据进行精确的细分,因此被许多领域所采用,而不仅仅局限于最初的医疗领域。
医学图像分析:U-Net 广泛应用于脑部扫描中的肿瘤分割、显微镜图像中的细胞识别以及手术规划中的器官勾勒等任务。例如,在医疗保健领域的人工智能中,U-Net 模型可以在核磁共振扫描数据集上进行训练,从而自动勾画出脑肿瘤的轮廓,帮助放射科医生做出更快、更准确的诊断。您可以探索公共医学影像数据集,了解所使用的数据类型。
卫星图像分析:在地理信息系统(GIS)中,U-Net 模型用于分析卫星图像。可以对模型进行训练,以识别和划分不同类型的土地覆盖(森林、水体、城市区域),或从航拍照片中绘制出道路网络图。这对城市规划、环境监测和智能农业的应用至关重要。美国国家航空航天局(NASA)的地球数据计划(Earthdatainitiative)等项目都依赖于此类技术。
虽然 U-Net 功能强大,但必须将其与其他计算机视觉模型区分开来。
U-Net 与 YOLO 的分割对比: Ultralytics YOLO等模型也能进行图像分割。不过,YOLO11等架构主要是为对象检测和实例分割等任务的实时性能而设计的。U-Net 是一种经典架构,以其在语义分割(每个像素都会被分类)方面的高精度而著称,但其速度可能无法与高度优化的现代模型相媲美。您可以比较各种模型的性能,以了解这些权衡。
语义分割与实例分割:U-Net 从根本上说是一种语义分割模型。它为每个像素指定一个类别标签(如 "汽车"、"道路"、"建筑")。相比之下,实例分割则是区分同一类别的不同实例(如 "汽车 1"、"汽车 2")。虽然 U-Net 的基本架构是用于语义分割,但其原理已被应用到更复杂的模型中,如 Mask R-CNN,以执行实例分割。
U-Net 仍然是深度学习领域的一个重要里程碑。它的成功表明,即使没有庞大的数据集,复杂的架构也能取得优异的成绩。跳转连接的概念极具影响力,现已成为许多先进网络架构(包括基于变形器的架构)的共同特征。
虽然 U-Net 仍然是一个强大的基准,但许多现代的细分解决方案都建立在其理念之上。对于希望构建自己的视觉应用的开发人员来说,PyTorch和TensorFlow等平台提供了实现 U-Net 和类似模型的工具。为了获得无代码集成体验,您可以使用Ultralytics HUB在自己的数据上训练自定义细分模型。