了解Ultralytics YOLO11 如何支持无锚对象检测,以及这种模型架构给各种应用带来的好处。
如果我们回顾一下视觉人工智能模型的历史,那么物体检测这一计算机视觉的核心任务(涉及在图像或视频中识别和定位物体)的概念早在 20 世纪 60 年代就已出现。然而,它之所以在当今的尖端创新中具有重要意义,关键在于物体检测技术和模型架构从那时起就不断进步并得到了迅速改进。
在上一篇文章中,我们讨论了物体检测的演变以及通往Ultralytics YOLO 模型的道路。今天,我们将重点探讨这一历程中一个更为具体的里程碑:从基于锚点的检测器到无锚点检测器的跨越。
基于锚点的检测器依靠被称为 "锚点 "的预定义方框来预测图像中的物体位置。相比之下,无锚检测器跳过了这些预定义的方框,而是直接预测物体的位置。
这种转变看似简单、合乎逻辑,但实际上却大大提高了物体检测的准确性和效率。在本文中,我们将了解无锚检测器是如何通过以下进步重塑计算机视觉的。 Ultralytics YOLO11.
基于锚点的检测器使用预定义的方框(称为锚点)来帮助定位图像中的物体。可以把这些锚点想象成放置在图像上的不同大小和形状的方框网格。然后,模型会根据检测到的物体调整这些方框。例如,如果模型识别出一辆汽车,它就会修改锚点框,以便更准确地匹配汽车的位置和大小。
每个锚点都与图像中可能存在的物体相关联,在训练过程中,模型会学习如何调整锚点框,以更好地匹配物体的位置、大小和长宽比。这样,模型就能检测到不同比例和方向的物体。然而,选择一组正确的锚点框非常耗时,而且在微调过程中也容易出错。
虽然基于锚点的检测器(如YOLOv4)在许多应用中效果良好,但它们也有一些缺点。例如,锚点框并不总是能很好地与不同形状或大小的物体对齐,这使得模型更难检测到小的或不规则形状的物体。选择和微调锚点框大小的过程也很耗时,需要大量的人工操作。除此以外,基于锚点的模型在检测遮挡或重叠的物体时往往会遇到困难,因为预定义的框可能无法很好地适应这些更复杂的情况。
无锚检测器在 2018 年开始受到关注,CornerNet 和 CenterNet 等模型通过消除对预定义锚框的需求,采取了一种全新的物体检测方法。与依靠不同大小和形状的锚框来预测物体位置的传统模型不同,无锚模型直接预测物体的位置。它们专注于物体的关键点或特征,如中心点,从而简化了检测过程,使其更快、更准确。
以下是无锚模型的一般工作原理:
由于无锚模型不依赖于锚箱,因此设计更简单。这意味着它们的计算效率更高。由于无需处理多个锚点框,它们可以更快地检测到物体--这在自动驾驶和视频监控等实时应用中是一个重要优势。
无锚点模型在处理小型、不规则或遮挡物体方面也更胜一筹。由于它们专注于检测关键点,而不是试图适应锚点框,因此更加灵活。这使它们能够在杂乱或复杂的环境中准确检测物体,而基于锚点的模型可能会在这些环境中失效。
YOLO 模型最初是为了提高速度和效率而设计的,现在已逐渐从基于锚点的方法转向无锚点检测,使YOLO11 等模型更快、更灵活,更适合广泛的实时应用。
以下是YOLO 不同版本无锚设计的演变过程:
在自动驾驶汽车中,使用YOLO11 进行无锚检测是一个很好的例子。在自动驾驶汽车中,快速准确地检测行人、其他车辆和障碍物对安全至关重要。YOLO11无锚检测方法通过直接预测物体的关键点(如行人的中心或其他车辆的边界),而不是依赖预定义的锚点框,从而简化了检测过程。
YOLO11 不需要为每个对象调整或匹配锚点网格,因为这样做的计算成本会很高,速度也会很慢。相反,它专注于关键特征,因此速度更快,效率更高。例如,当行人步入车辆路径时,YOLO11 可以通过精确定位关键点快速识别其位置,即使该人部分隐藏或正在移动。无需锚框即可适应不同形状和大小的能力使YOLO11 能够以更高的速度更可靠地检测物体,这对于自动驾驶系统的实时决策至关重要。
YOLO11的无锚功能在其他应用中也非常突出:
虽然像YOLO11 这样的无锚点模型有很多优点,但也有一定的局限性。其中一个主要的实际考虑因素是,即使是无锚点模型,在处理遮挡物或高度重叠的物体时也会遇到困难。这背后的原因是,计算机视觉 旨在复制人类视觉,就像我们有时难以识别遮挡物体一样,人工智能模型也会面临类似的挑战。
另一个有趣的因素与模型预测的处理有关。虽然无锚模型的结构比基于锚的模型简单,但在某些情况下仍有必要进行额外的改进。例如,可能需要非最大抑制(NMS)等后处理技术来清理重叠预测或提高拥挤场景中的预测精度。
从基于锚点到无锚点检测的转变是物体检测领域的一大进步。有了无锚点模型(如YOLO11 ),检测过程得以简化,从而提高了精度和速度。
通过YOLO11 ,我们看到了无锚点物体检测在自动驾驶汽车、视频监控和医疗成像等实时应用中的出色表现,在这些应用中,快速和精确的检测至关重要。这种方法使YOLO11 能够更容易地适应不同的物体大小和复杂的场景,在各种环境中提供更好的性能。
随着计算机视觉的不断发展,物体检测只会变得更快、更灵活、更高效。
探索我们的GitHub 存储库,加入我们的社区,随时了解人工智能的最新动态。了解人工智能视觉如何影响制造业和农业等领域。