了解最新的计算机视觉模型 YOLO12!了解其以注意力为中心的架构和 FlashAttention 技术如何增强各行业的物体检测任务
计算机视觉是人工智能(AI)的一个分支,可帮助机器理解图像和视频。由于人工智能研究人员和开发人员不断挑战极限,该领域的发展速度令人难以置信。人工智能界一直致力于让模型更快、更智能、更高效。最新的突破之一是 2025 年 2 月 18 日发布的YOLO (你只看一次)模型系列的最新成员YOLO 。
YOLO12 由纽约州立大学布法罗分校和中国科学院大学的研究人员共同开发。YOLO12 采用一种独特的新方法,引入了注意力机制,使模型能够专注于图像中最重要的部分,而不是平均处理所有图像。
它还采用了 FlashAttention(一种可加快处理速度同时减少内存使用量的技术)和区域注意力机制,旨在模仿人类自然关注中心物体的方式。
这些改进使 YOLO12n 比 YOLOv10n 精确度提高了 2.1%,YOLO12m 比 YOLO11m 精确度提高了 +1.0%。不过,这也有代价--YOLO12n 比 YOLOv10n 慢 9%,YOLO12m 比 YOLO11m 慢 3%。
在本文中,我们将探讨 YOLO12 的不同之处、与以前版本的比较以及应用领域。
YOLO 模型系列是专为实时物体检测而设计的计算机视觉模型集合,这意味着它们可以快速识别和定位图像和视频中的物体。随着时间的推移,每个版本在速度、准确性和效率方面都有所提高。
例如 Ultralytics YOLOv5于 2020 年发布,因其快速、易于定制培训和部署而被广泛使用。后来 Ultralytics YOLOv8在此基础上进行了改进,为实例分割和对象跟踪等计算机视觉任务提供了额外支持。
最近 Ultralytics YOLO11侧重于改进实时处理,同时保持速度和准确性之间的平衡。例如,与YOLOv8m 相比,YOLOv8m 的参数减少了 22%,但在 COCO 数据集(一个广泛用于评估物体检测模型的基准)上仍然提供了更好的检测性能。
在这些进步的基础上,YOLO12 改变了处理视觉信息的方式。它不再一视同仁地处理图像的所有部分,而是优先处理最相关的区域,从而提高了检测的准确性。简而言之,YOLO12 在以往改进的基础上,力求更加精确。
YOLO12 引入了多项改进,在保持实时处理速度的同时增强了计算机视觉任务。以下是 YOLO12 的主要功能概览:
要了解这些功能在现实生活中如何发挥作用,不妨考虑一下购物中心。YOLO12 可以帮助追踪购物者,识别盆栽或促销标志等商店装饰,并发现放错位置或被遗弃的物品。
其以注意力为中心的架构可帮助其专注于最重要的细节,而 FlashAttention 则可确保其快速处理所有信息,而不会使系统超负荷。这样,商场经营者就能更轻松地提高安全性、组织店铺布局并增强整体购物体验。
不过,YOLO12 也有一些需要考虑的局限性:
YOLO12 有多个版本,每个版本都针对不同需求进行了优化。较小的版本(纳米和小型)优先考虑速度和效率,是移动设备和边缘计算的理想选择。中型和大型版本在速度和精度之间取得了平衡,而 YOLO12x(超大型)则专为工业自动化、医疗成像和高级监控系统等高精度应用而设计。
通过这些变体,YOLO12 可根据模型大小提供不同级别的性能。基准测试表明,YOLO12 的某些变体在精度上优于 YOLOv10 和YOLO11 ,达到了更高的平均精度(mAP)。
不过,有些模型,如 YOLO12m、YOLO12l 和 YOLO12x,处理图像的速度比YOLO11 慢,这表明在检测精度和速度之间需要权衡。尽管如此,YOLO12 仍然很高效,所需的参数比许多其他模型要少,尽管它使用的参数仍然比YOLO11 多。因此,对于精度比原始速度更重要的应用来说,YOLO12 是一个不错的选择。
YOLO12 由Ultralytics Python 软件包支持,易于使用,初学者和专业人士都可以使用。只需几行代码,用户就可以加载预训练模型,在图像和视频上运行各种计算机视觉任务,还可以在自定义数据集上训练 YOLO12。Ultralytics Python 软件包简化了这一过程,省去了复杂的设置步骤。
例如,以下是使用 YOLO12 进行物体检测的步骤:
这些步骤使 YOLO12 能够轻松用于各种应用,从监控和零售跟踪到医疗成像和自动驾驶汽车。
YOLO12 支持对象检测、实例分割、图像分类、姿态估计和面向对象检测 (OBB),可用于各种实际应用。
不过,正如我们前面所讨论的,YOLO12 模型优先考虑的是精度而不是速度,这意味着与早期版本相比,它们处理图像的时间稍长。这种权衡使 YOLO12 非常适合精度比实时速度更重要的应用,例如
在运行 YOLO12 之前,确保您的系统满足必要的要求非常重要。
从技术上讲,YOLO12 可以在任何专用GPU (图形处理器)上运行。默认情况下,它不需要 FlashAttention,因此无需 FlashAttention 也能在大多数GPU 系统上运行。不过,在处理大型数据集或高分辨率图像时,启用 FlashAttention 尤其有用,因为它有助于防止速度变慢、减少内存使用并提高处理效率。
要使用 FlashAttention,您需要使用以下系列中的NVIDIA ®)GPU :图灵(T4、Quadro RTX)、安培(RTX 30 系列、A30、A40、A100)、Ada Lovelace(RTX 40 系列)或 Hopper(H100、H200)。
考虑到可用性和可访问性,Ultralytics Python 软件包尚不支持 FlashAttention 推理,因为其安装在技术上相当复杂。要进一步了解如何开始使用 YOLO12 和优化其性能,请查看 Ultralytics 官方文档。
随着计算机视觉技术的发展,模型变得越来越精确和高效。YOLO12 通过以注意力为中心的处理和 FlashAttention 改进了对象检测、实例分割和图像分类等计算机视觉任务,在优化内存使用的同时提高了准确性。
与此同时,计算机视觉技术比以往任何时候都更易于使用。通过Ultralytics Python 软件包,YOLO12 很容易使用,它注重精度而非速度,非常适合医疗成像、工业检测和机器人技术这些精度至关重要的应用。
对人工智能感到好奇?访问我们的GitHub 存储库并与我们的社区互动。在我们的解决方案页面,探索自动驾驶汽车中的人工智能和农业中的计算机视觉等领域的创新。查看我们的许可选项,将您的视觉人工智能项目付诸实践。🚀