了解全景分割如何在人工智能应用中统一语义分割和实例分割,以实现精确的像素级场景理解。
全景分割是一项先进的计算机视觉(CV)任务,可提供对整个场景的全面、像素级理解。它将语义分割和实例分割这两项独立的任务统一起来。其目标是为图像中的每个像素分配一个类别标签(如汽车、人或天空),并为不同的物体分配一个唯一的实例 ID。这样就能产生比任何一种分割方法都更全面、更详细的输出结果,使机器能够以更接近人类视觉的详细程度感知视觉环境。该术语是由 FAIR 的研究人员在 2018 年发表的开创性论文"Panoptic Segmentation "中提出的。
要全面掌握全景细分技术,最好将其与各组成部分进行比较:
car_1
, car_2
和 pedestrian_1
.然而,实例分割通常会忽略无定形的背景区域或 "东西"(如天空、道路、草地、墙壁),这些区域缺乏明显的形状或数量。car_1
, car_2
和 pedestrian_1
作为单独的实体。这种综合方法对于先进的 人工智能应用.全景分割所提供的详细场景理解在各个领域都非常宝贵:
全景分割模型通常使用PyTorch等深度学习框架构建,并在COCO-Panoptic和Cityscapes 等大型数据集上进行训练。虽然像YOLO11这样的 Ultralytics 模型在物体检测和实例分割等核心任务中提供了最先进的性能,这些都是必不可少的基础模块,但全景分割代表了综合场景理解的下一个层次。随着谷歌人工智能和Meta AI等机构的研究不断深入,这些综合模型的能力也在不断提高,为更复杂、更具感知能力的人工智能系统铺平了道路。您可以使用Ultralytics HUB 等平台管理和训练相关任务的模型。