了解全景分割如何在人工智能应用中统一语义分割和实例分割,以实现精确的像素级场景理解。
全景分割是一项先进的计算机视觉任务,旨在通过为每个像素分配一个类别标签和一个唯一的实例 ID 来提供对图像的完整而连贯的理解。它有效地统一了两大分割范式:语义分割和实例分割,前者为每个像素标注一个类别(如 "汽车"、"道路"、"天空"),后者识别并划分单个对象实例(如 "汽车 1"、"汽车 2")。其目标是创建一个全面的、像素级的场景地图,以区分同类的不同物体,并识别无定形的背景区域,即通常所说的 "东西"(如道路、天空、植被)和可数的 "东西"(如汽车、行人、自行车)。这种整体方法比单独的语义分割或实例分割能提供更丰富的场景背景。
全景分割算法处理图像以生成单一的输出图,其中每个像素都有一个语义标签,如果属于可数对象("事物"),则有一个唯一的实例 ID。属于背景区域("事物")的像素共享相同的语义标签,但通常没有唯一的实例 ID(或每个事物类别共享一个 ID)。现代方法通常利用深度学习,特别是基于卷积神经网络(CNN)或变形器的架构。有些方法使用单独的网络分支进行语义分割和实例分割,然后将结果融合,而另一些方法则采用端到端模型,这些模型是专门为全景任务设计的,如最初的"全景分割 "论文中所介绍的那样。这些模型的训练需要包含详细全景注释的数据集,如COCO 全景数据集或城市景观数据集。通常使用全景质量 (PQ)指标来衡量性能,该指标结合了分割质量和识别质量。
了解全景分割与相关计算机视觉任务之间的区别至关重要:
全景分割技术独特地结合了语义分割和实例分割的优势,提供统一的输出结果,将所有像素分割为类别标记的背景区域或不同的对象实例。
全景分割技术提供的全面场景理解在各个领域都非常有价值:
Ultralytics 模型(如YOLO11 )在物体检测和实例分割等任务中提供了最先进的性能,而全景分割则代表了更高水平的综合场景理解,对于日益复杂的人工智能应用至关重要。您可以使用Ultralytics HUB 等平台管理和训练相关任务的模型。