发现语义分割的强大功能--分类图像中的每个像素,精确理解场景。立即探索应用和工具!
语义分割是计算机视觉中的一项基本任务,涉及为图像中的每个像素分配特定的类别标签。与其他可能识别物体或对整个图像进行分类的视觉任务不同,语义分割提供了对场景内容的密集、像素级的理解。这意味着它不仅能检测出是否有汽车,还能精确勾勒出哪些像素属于汽车类别,将它们与属于道路、天空或行人的像素区分开来。
语义分割的主要目的是将图像分割成与不同对象类别相对应的有意义的区域。例如,在一幅包含多辆汽车、行人和树木的图像中,语义分割模型会将组成任何一辆汽车的所有像素标记为 "汽车",将组成任何一个行人的所有像素标记为 "行人",将组成任何一棵树的所有像素标记为 "树"。它对同一对象类别的所有实例一视同仁。这与图像分类和物体检测形成了鲜明对比,图像分类会给整个图像分配一个标签,而物体检测会在检测到的物体周围画出边界框,但不会勾勒出物体的确切形状。
语义分割模型通常使用监督学习技术进行训练,需要带有详细像素级注释的数据集。输出结果通常是分割图,即每个像素的值(或颜色)与其预测类别标签相对应的图像。
将语义分割与相关任务区分开来非常重要:
语义分割所提供的详细场景理解对现实世界的许多应用都至关重要:
语义分割通常采用深度学习模型,尤其是卷积神经网络(CNN)。像全卷积网络(FCN)和U-Net这样的架构是最受欢迎的选择。现代模型如 Ultralytics YOLOv8等现代模型也为细分任务提供了强大的功能。Ultralytics HUB等工具为训练、管理COCO 等数据集和高效部署细分模型提供了平台。