深圳Yolo 视觉
深圳
立即加入
词汇表

语义分割

探索像素级图像理解的语义分割技术。立即学习如何Ultralytics 训练并部署精准的分割模型。

语义分割是一项计算机视觉任务,通过为每个像素分配特定类别标签,将图像划分为独立区域。与图像分类(为整张图像分配单一标签)或目标检测(在物体周围绘制边界框)等简单任务不同,语义分割能提供像素级别的场景理解。 这种精细化分析对特定应用至关重要——当物体的精确形状与边界与物体身份同等重要时,它使机器能够像人类一样"观察"世界,区分构成道路、行人或医学扫描中肿瘤的具体像素。

语义分割的工作原理

从本质上讲,语义分割将图像视为需要分类的像素网格。深度学习模型,特别是卷积神经网络(CNN),是该任务的标准架构。 典型架构如广泛应用的U-Net采用编码器-解码器结构:编码器对输入图像进行压缩以提取高级特征(如纹理与形状),解码器则将这些特征上采样至原始图像分辨率,从而生成精确的分割掩膜

为实现这一目标,模型需基于大型标注数据集进行训练,其中人工标注员已根据类别对每个像素进行精细着色。诸Ultralytics 工具通过提供自动标注功能,显著加速高质量基准数据的创建。训练完成后,模型将输出一个掩膜图,其中每个像素值对应特定类别ID,从而有效地为图像"绘制"出意义。

区分相关概念

人们常将语义分割与其他像素级任务混淆。理解这些差异是为项目选择正确方法的关键:

  • 实例分割 语义分割将同一类别的所有对象视为单一实体(例如所有"汽车"均涂成蓝色),而实例分割则区分个体对象(例如"汽车A"为蓝色,"汽车B"为红色)。
  • 全景分割 该方法融合了两种概念。它为每个像素分配类别(语义),同时将可计数物体的个体实例进行分离(实例),从而提供最全面的场景理解。

实际应用

以像素级精度解析视觉数据的能力,正推动着众多高风险行业的创新发展:

  • 汽车领域的AI:自动驾驶车辆高度依赖分割技术实现安全导航。通过区分可通行区域与人行道,并精确勾勒行人、车辆及障碍物的轮廓,自动驾驶系统能够实时作出关键决策。
  • 医疗领域的人工智能医学影像中,模型segment 从CT扫描和MRI图像中segment 、病变或肿瘤。这有助于放射科医生计算肿瘤体积以制定治疗方案,或以极高精度引导机器人手术器械。
  • 农业人工智能农民利用航拍无人机影像和图像分割技术监测作物健康状况。通过将像素分类为"健康作物"、"杂草"或"土壤",自动化系统可精准实施除草剂喷洒,既减少化学品使用量,又实现产量优化。

使用Ultralytics实现用户分群

现代分割模型需要在准确率与速度之间取得平衡,尤其对于 实时推理 在边缘设备上。 Ultralytics YOLO26 模型家族包含专门的 分割模型(用符号表示) -seg 后缀)原生支持端到端传输,相较于旧式架构(如 YOLO11.

以下示例演示了如何使用 ultralytics Python 包。该操作生成二进制掩膜,用于勾勒对象边界。

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()

挑战和未来方向

尽管取得了显著进展,语义分割仍具有较高的计算复杂度。为每个像素生成分类结果需要消耗GPU 和内存。研究人员正积极优化这些模型的运行效率,探索诸如模型量化等技术,以实现将复杂网络部署于移动设备和嵌入式设备上。

此外,对海量标注数据集的需求已成为瓶颈。为解决这一问题,业界正转向合成数据生成和自监督学习技术,使模型能够直接从原始图像中学习,无需依赖数百万个手动像素标签。随着这些技术的成熟,我们可望在智能相机、机器人和增强现实应用中看到更广泛的分割技术应用。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入