绿色检查
链接复制到剪贴板

什么是实例细分?快速指南

让我们一起深入了解什么是实例分割、实例分割的工作原理、实例分割在各种计算机视觉应用中的使用以及实例分割可能产生的影响。

从监控路况的交通摄像头到商店里的自助结账系统,计算机视觉应用在我们的日常生活中越来越常见。通过让机器以类似于人类的方式理解视觉数据,视觉人工智能正在对各行各业产生影响。

这些应用中有许多都依赖于物体检测,这是一项计算机视觉任务,它将边界框置于图像中的关键物体周围。虽然这种方法通常效果很好,但有些图像分析解决方案需要更高的精度。

例如,医学成像需要的不仅仅是检测肿瘤,关键是要勾勒出肿瘤的准确形状。同样,在机器人技术中,机器需要识别物体的准确轮廓才能正确抓取。为了应对这些挑战,实例分割提供了一种更精确的解决方案。

实例分割是一项计算机视觉任务,旨在支持仅检测物体还不够的使用案例--它提供了像素级的精确度。计算机视觉模型,如 Ultralytics YOLO11等计算机视觉模型可以轻松地对图像和视频进行实例分割。 

图 1.使用YOLO11 进行实例分割的示例。

在本指南中,我们将详细介绍实例细分的工作原理、应用以及Ultralytics YOLO11 如何针对特定细分任务进行自定义训练。

什么是实例细分?

假设有一张人们站在一起的合影。物体检测可以帮助在每个人周围画出方框,但这并不能告诉你他们的具体形状。 

实例分割则类似于仔细追踪每个人的轮廓,这样你就能看到他们的完整轮廓,即使他们重叠在一起。它不只是用一个方框标记出某物的位置,而是在像素级别识别出每个物体的确切形状,从而更容易理解复杂的图像。

其结果是一个详细的遮罩,可以填充物体的形状,精确定位哪些像素属于该物体。这种精确度在现实世界的许多应用中都非常有用,因为在这些应用中,了解物体的确切形状和边界非常重要。

图 2.展示YOLO11对实例分割的支持。

实例分割与语义分割

在探索实例分割时,您可能会遇到语义分割的概念。

这两种技术都能帮助计算机在像素级别理解图像,但它们的目的不同。语义分割会根据像素的类别给每个像素贴上标签,将所有相同类型的物体归为一类。例如,在一张有多辆汽车的图像中,语义分割会将所有汽车标记为 "汽车",而不会区分单个汽车。

而实例分割则更进一步,可以单独识别每个对象。它为单个实例分配唯一的标签,并围绕它们的形状创建精确的遮罩。因此,在同一幅图像中,实例分割不会把所有东西都标记为 "汽车",而是会单独识别并勾勒出每辆汽车的轮廓。

两者的主要区别在于,语义分割是按类别对物体进行分组,而实例分割则是将每个物体区分为具有明确边界的独特实体。选择使用哪种任务取决于具体的应用--知道图像中有什么就足够了,还是区分单个对象很重要。

图 3实例分割与语义分割(分别为右图和左图)。

流行的实例分割模型

如今,视觉人工智能界有各种实例分割模型可供选择。有的速度更快,有的更准确,有的更容易使用。 

这些选项虽然有用,但也会带来一个问题:哪一个才是适合特定任务的正确选项?在这些选项中,Ultralytics YOLO 模型颇受欢迎,因为它们注重速度和准确性。 

此外,这些模式多年来也有了很大发展。例如 Ultralytics YOLOv5使用PyTorch 等框架简化了部署,使更多人无需深厚的专业技术知识即可使用高级视觉人工智能。

再接再厉、 Ultralytics YOLOv8增强了对计算机视觉任务的支持,如实例分割、姿态估计和图像分类。 

现在,YOLO11 将性能提升到了一个新的水平。与YOLOv8m 相比,它在 COCO 数据集上实现了更高的平均精确度 (mAP),而参数数量却减少了 22%,这意味着它可以在使用更少资源的情况下更精确地识别物体。

图 4. YOLO11 的基准测试。

简而言之,YOLO11 在不降低效率的情况下提供了最先进的精确度,从而改变了现场的游戏规则。

了解实例分割的工作原理

接下来,让我们来探讨一下实例分割通常是如何进行的。老式计算机视觉模型采用两步法。 

首先,它们通过绘制物体周围的边界框来检测物体。然后,生成像素级掩码,勾勒出每个物体的准确形状。一个著名的例子是 Mask R-CNN,它在物体检测模型的基础上增加了一个掩码预测步骤。虽然这种方法很有效,但由于需要分多个阶段处理图像,因此速度可能会很慢,这使得实时应用更具挑战性。

与此同时,YOLO11 等模型可以一次性处理图像,同时预测对象边界框和实例分割掩码。这种精简的方法在保持高精度的同时,速度也更快。因此,它特别适用于自动驾驶、视频分析和机器人等对速度和精度都至关重要的实时应用。

针对实例细分的定制培训YOLO11

开箱即用的YOLO11 是一个预训练模型。它是在COCO-Seg 数据集上训练的,该数据涵盖了日常物体的分割实例。不过,Ultralytics Python 软件包支持自定义训练,这对于需要分割独特物体的专业应用来说至关重要。

为什么定制训练或微调模型很重要?定制训练通过利用预训练模型中已蕴含的知识来实现迁移学习。它不是从零开始,而是利用较小的数据集和较少的计算资源,在保持高准确度的同时,将现有模型调整为适应新任务的模型。

如何定制训练YOLO11

下面将详细介绍微调YOLO11 的步骤,以便进行实例分割: 

  • 数据准备:根据您的特定应用收集和注释图像。Ultralytics 支持多个图像数据集,但您也可以使用自己的数据集进行训练,方法是以所需的YOLO 格式准备图像和注释。
  • 使用预训练模型: 与其从头开始,不如使用预先训练好的Ultralytics YOLO11 模型。
  • 模型训练: 调整重要的训练设置,如批量大小(每次迭代处理的图像)、图像大小(目标输入分辨率)和epochs(总训练周期),然后训练模型。
  • 性能评估: 模型训练完成后,可以使用 mAP 等性能指标测试模型的准确性。Ultralytics Python 软件包还提供了用于模型评估的内置函数。

YOLO11支持的实例分割应用

实例分割可用于解决现实世界中的难题,帮助机器更准确地观察和理解物体。从改善自动化到保护环境,它在许多领域都发挥着关键作用。让我们举例说明实例分割技术在哪些领域发挥了作用。

使用YOLO11进行建筑工地安全和监测

实例分割是确保建筑工地安全和效率的关键部分。例如,它可用于监控重型机械。 

YOLO11 可以进行微调,以准确分割和识别不同类型的设备,如起重机、挖掘机和推土机,并实时跟踪它们的位置。这样,现场管理人员就能确保机械严格在指定区域内运行,而不会侵入有工人在场或存在危险的区域。 

此外,将此类解决方案与实时警报系统集成,还能迅速采取纠正措施。除此之外,收集到的信息还有助于优化现场布局和工作流程,进一步降低风险,提高生产率。

图 5.使用YOLO11 监控重型机械。

利用分割和YOLO11对动物进行监测YOLO11

动物行为监测有助于研究人员、农民和保护主义者更好地照顾不同环境中的动物。实例分割通过识别和分割农场、动物园和自然栖息地中的单个动物,在这些系统中发挥着有益的作用。与使用边界框的传统对象检测不同,实例分割提供了每个动物的像素级划分,这在动物靠近时尤其有用。

详细的分割有助于更准确地追踪动物的运动和行为。重叠或紧密聚集的动物可以被清晰识别,并提供更精确的互动分析、健康评估和活动模式。总之,对动物行为更深入的了解可以加强动物护理和管理实践。

图 6.利用实例分割监控牛群

体育分析和球员追踪中的YOLO11

精确的球员和事件追踪是体育分析的重要组成部分。传统的跟踪方法依赖于人工标记,可能无法捕捉到详细的互动。计算机视觉可用于在像素级别分割每个球员、球和关键事件等细节,从而获得详细的见解。

例如,实例分割可以通过清晰地分离每个球员和物体,帮助检测犯规或球外事件等事件。通过YOLO11 等模型实现的这种细粒度监控,可为分析人员提供更清晰的信息,以高精度研究运动模式、空间定位和互动。这些洞察力的一个主要好处是,它们可以帮助球队完善战略,提高整体表现。

实例分割的利弊

以下是实例细分能为各行各业带来的一些主要益处:

  • 提高自动化程度:
  • 更好地理解场景
  • 高效的后期处理:像素级输出简化了背景去除、物体计数和空间分析等任务,减少了额外处理步骤的需要。

虽然这些优势凸显了实例细分对不同用例的影响,但也必须考虑到实施实例细分所面临的挑战。 

以下是实例分割的一些主要局限性:

  • 透明度的挑战:分割玻璃和水等透明或反光物体非常困难,会导致边界不准确。
  • 维护费用:
  • 标注工作量大:训练实例分割模型需要详细的像素级注释,这大大增加了数据准备的时间和成本。

主要收获

实例分割可以精确地区分单个物体,即使物体重叠也不例外。通过捕捉像素级的物体边界,与物体检测等传统计算机视觉任务相比,它能更深入地理解视觉数据。

计算机视觉领域的最新进展使实例分割变得更快、更容易使用。尤其是Ultralytics YOLO11 等计算机视觉模型简化了这一过程,只需最少的设置就能实现实时分割,使其更易于在各行业和应用中使用。

对人工智能感到好奇?访问我们的 GitHub 存储库并与我们的社区联系,继续探索。在我们的解决方案页面上了解自动驾驶汽车中的人工智能农业中的视觉人工智能等创新。查看我们的许可选项,开始计算机视觉项目!

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅