了解全景分割如何在人工智能应用中统一语义分割和实例分割,以实现精确的像素级场景理解。
全景分割是一种先进的计算机视觉技术,旨在实现对视觉场景像素级的完整而详细的理解。它独特地结合了语义分割和实例分割这两种其他关键分割方法的优势。全景分割的主要目标是为图像中的每个像素分配一个类别标签(如 "汽车"、"人"、"道路"、"天空")和一个实例 ID(用于区分同一类别中的不同物体),从而为场景提供丰富、统一的解释。
要掌握全景分割技术,不妨将其与相关任务进行比较。物体检测使用边界框识别物体,但缺乏像素级细节。语义分割可将每个像素归入一个类别(例如,所有汽车都被标记为 "汽车"),但无法区分同一类别中的单个物体。实例分割法通过检测和分割每个不同的对象实例(例如,汽车 1、汽车 2)来解决这个问题,但通常只关注可数对象("事物"),可能会忽略背景区域(草地、天空或道路等 "事物")。
全景分割通过提供更全面的场景理解,弥补了这一差距。它为每个像素分配一个语义标签,无论其属于 "事物 "类(可数物体,如车辆、行人、动物)还是 "物体 "类(无定形区域,如道路、墙壁、天空)。最重要的是,对于属于 "事物 "类的像素,它还会分配一个唯一的实例 ID,将每个物体与其他同类物体区分开来。这种全面的标记确保没有像素未被分类,从而提供了对图像的完整解析。
全景分割模型通常依赖于深度学习架构。这些模型通常使用共享特征提取器(主干网络),然后是专门的头部或分支,预测所有像素的语义标签和 "事物 "类别的实例掩码。然后将这些分支的输出进行智能组合或融合,生成最终的全景分割图,其中每个像素都有一个语义标签和一个实例 ID(如适用)。
全景细分技术可提供全面的场景理解,在各个领域都极具价值:
虽然全景细分是一项复杂的任务,但诸如 Ultralytics YOLO等模型的进步推动了细分性能的发展。诸如 Ultralytics YOLOv8等模型为相关的图像分割任务提供了强大的功能,为构建更复杂的感知系统奠定了基础。用户可以利用Ultralytics HUB等平台简化工作流程,包括在自定义数据集上训练模型和探索各种模型部署选项。