探索全景分割技术,实现语义分割与实例分割的统一。了解Ultralytics 如何为人工智能项目提供精准的场景理解能力。
全景分割是一项综合性的计算机视觉(CV)任务,它将两种截然不同的图像分析形式——语义分割与实例分割——统一起来。传统方法分别处理这些任务:要么对"天空"或"草地"等背景区域进行泛化分类,要么检测"汽车"或"人"等特定物体;而全景分割则将它们整合到一个统一的框架中。 该方法为图像中每个像素分配唯一值,从而实现对场景的完整理解——既能区分可计数物体(称为"事物"),又能识别无定形背景区域(称为"杂物")。通过确保每个像素都被计数和分类,该技术比孤立的检测方法更贴近人类视觉感知机制。
要全面理解全景式分段技术,有必要先了解其处理的视觉信息二元性。 该技术将视觉世界划分为两大基本类别:
这种区分对于高级人工智能(AI)系统至关重要, 使其能够在导航环境的同时与特定物体进行交互。
现代全景分割架构通常采用强大的深度学习(DL)骨干网络,例如卷积神经网络(CNN)或视觉Transformer ViT),以从图像中提取丰富的特征表示。该网络通常分为两个分支或"头部":
融合模块或后处理步骤随后会解决这些输出结果之间的冲突——例如判定某个像素点属于"人物"实例还是其身后的"背景"墙壁——从而生成最终的、无重叠的全景分割图。
全景式分段的整体性使其在安全与情境至关重要的行业中不可或缺。
虽然完整的全视角训练可能较为复杂,但开发者Ultralytics 实现高精度实例分割——这是全视角训练的关键环节。该尖端模型具备实时处理能力,并针对边缘部署进行了优化。
以下Python 演示了如何加载预训练的分割模型并运行推理以分离 不同对象:
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with overlaid segmentation masks
results[0].show()
对于希望管理训练数据并自动化标注流程的团队Ultralytics 提供了一套用于数据集管理和模型训练的工具。高质量的数据标注对分割任务至关重要,因为模型需要精确的像素级标签才能有效学习。
理解不同分段类型的细微差别对于为项目选择合适的模型至关重要:
若需进一步探索这些任务中使用的数据集格式,可查阅COCO 文档,该数据集是衡量分割性能的标准基准。