绿色检查
链接复制到剪贴板

YOLO12 解释:真实世界的应用和使用案例

了解最新的计算机视觉模型 YOLO12!了解其以注意力为中心的架构和 FlashAttention 技术如何增强各行业的物体检测任务

计算机视觉是人工智能(AI)的一个分支,可帮助机器理解图像和视频。由于人工智能研究人员和开发人员不断挑战极限,该领域的发展速度令人难以置信。人工智能界一直致力于让模型更快、更智能、更高效。最新的突破之一是 2025 年 2 月 18 日发布的YOLO (你只看一次)模型系列的最新成员YOLO 。

YOLO12 由纽约州立大学布法罗分校和中国科学院大学的研究人员共同开发。YOLO12 采用一种独特的新方法,引入了注意力机制,使模型能够专注于图像中最重要的部分,而不是平均处理所有图像。 

它还采用了 FlashAttention(一种可加快处理速度同时减少内存使用量的技术)和区域注意力机制,旨在模仿人类自然关注中心物体的方式。

这些改进使 YOLO12n 比 YOLOv10n 精确度提高了 2.1%,YOLO12m 比 YOLO11m 精确度提高了 +1.0%。不过,这也有代价--YOLO12n 比 YOLOv10n 慢 9%,YOLO12m 比 YOLO11m 慢 3%。

图 1.YOLO12 用于探测物体的示例。

在本文中,我们将探讨 YOLO12 的不同之处、与以前版本的比较以及应用领域。

YOLO12 发布之路

YOLO 模型系列是专为实时物体检测而设计的计算机视觉模型集合,这意味着它们可以快速识别和定位图像和视频中的物体。随着时间的推移,每个版本在速度、准确性和效率方面都有所提高。

例如 Ultralytics YOLOv5于 2020 年发布,因其快速、易于定制培训和部署而被广泛使用。后来 Ultralytics YOLOv8在此基础上进行了改进,为实例分割和对象跟踪等计算机视觉任务提供了额外支持。 

最近 Ultralytics YOLO11侧重于改进实时处理,同时保持速度和准确性之间的平衡。例如,与YOLOv8m 相比,YOLOv8m 的参数减少了 22%,但在 COCO 数据集(一个广泛用于评估物体检测模型的基准)上仍然提供了更好的检测性能。

在这些进步的基础上,YOLO12 改变了处理视觉信息的方式。它不再一视同仁地处理图像的所有部分,而是优先处理最相关的区域,从而提高了检测的准确性。简而言之,YOLO12 在以往改进的基础上,力求更加精确。

YOLO12 的主要特点

YOLO12 引入了多项改进,在保持实时处理速度的同时增强了计算机视觉任务。以下是 YOLO12 的主要功能概览:

  • 以注意力为中心的架构:YOLO12 不对图像的每个部分一视同仁,而是专注于最重要的区域。这提高了准确性,减少了不必要的处理,使检测更清晰、更高效,即使在杂乱的图像中也是如此。
  • 闪存注意YOLO12 加快了图像分析速度,同时使用更少的内存。通过 FlashAttention(一种内存效率算法),它优化了数据处理,减少了硬件压力,使实时任务更流畅、更可靠。
  • 剩余高效层聚合网络(R-ELAN):YOLO12 使用 R-ELAN 更有效地组织层,从而改进了模型处理和学习数据的方式。这使得训练更稳定,物体识别更清晰,计算要求更低,因此可以在不同环境下高效运行。

要了解这些功能在现实生活中如何发挥作用,不妨考虑一下购物中心。YOLO12 可以帮助追踪购物者,识别盆栽或促销标志等商店装饰,并发现放错位置或被遗弃的物品。 

其以注意力为中心的架构可帮助其专注于最重要的细节,而 FlashAttention 则可确保其快速处理所有信息,而不会使系统超负荷。这样,商场经营者就能更轻松地提高安全性、组织店铺布局并增强整体购物体验。

图 2.使用 YOLO12 检测购物中心中的物体。

不过,YOLO12 也有一些需要考虑的局限性:

  • 较慢的培训时间:
  • 导出挑战:一些用户在导出 YOLO12 模型时可能会遇到困难,尤其是在将模型集成到特定部署环境时。

了解 YOLO12 的性能基准

YOLO12 有多个版本,每个版本都针对不同需求进行了优化。较小的版本(纳米和小型)优先考虑速度和效率,是移动设备和边缘计算的理想选择。中型和大型版本在速度和精度之间取得了平衡,而 YOLO12x(超大型)则专为工业自动化、医疗成像和高级监控系统等高精度应用而设计。

通过这些变体,YOLO12 可根据模型大小提供不同级别的性能。基准测试表明,YOLO12 的某些变体在精度上优于 YOLOv10 和YOLO11 ,达到了更高的平均精度(mAP)。 

不过,有些模型,如 YOLO12m、YOLO12l 和 YOLO12x,处理图像的速度比YOLO11 慢,这表明在检测精度和速度之间需要权衡。尽管如此,YOLO12 仍然很高效,所需的参数比许多其他模型要少,尽管它使用的参数仍然比YOLO11 多。因此,对于精度比原始速度更重要的应用来说,YOLO12 是一个不错的选择。

图 3. Ultralytics YOLO11 和 YOLO12 的比较。

通过Ultralytics Python 软件包使用 YOLO12

YOLO12 由Ultralytics Python 软件包支持,易于使用,初学者和专业人士都可以使用。只需几行代码,用户就可以加载预训练模型,在图像和视频上运行各种计算机视觉任务,还可以在自定义数据集上训练 YOLO12。Ultralytics Python 软件包简化了这一过程,省去了复杂的设置步骤。

例如,以下是使用 YOLO12 进行物体检测的步骤:

  • 安装Ultralytics 软件包:首先,安装Ultralytics Python 软件包,它提供了高效运行 YOLO12 所需的工具。
  • 加载预训练的 YOLO12 模型:根据任务所需的精度和速度水平,选择适当的 YOLO12 变体(纳米、小型、中型、大型或超大型)。
  • 提供图像或视频:输入要分析的图像或视频文件。
  • 运行检测程序:模型扫描视觉数据,识别物体,并在物体周围放置边界框。它为每个检测到的物体标上预测类别和置信度分数。
  • 调整检测设置:您还可以修改置信度阈值等参数,以微调检测精度和性能。
  • 保存或使用输出结果:经过处理的图像或视频现在包含检测到的物体,可以保存或集成到应用程序中,以便进一步分析、自动化或决策。

这些步骤使 YOLO12 能够轻松用于各种应用,从监控和零售跟踪到医疗成像和自动驾驶汽车。

YOLO12 的实际应用

YOLO12 支持对象检测、实例分割、图像分类、姿态估计和面向对象检测 (OBB),可用于各种实际应用。 

图 4.YOLO12 支持对象检测和实例分割等任务。

不过,正如我们前面所讨论的,YOLO12 模型优先考虑的是精度而不是速度,这意味着与早期版本相比,它们处理图像的时间稍长。这种权衡使 YOLO12 非常适合精度比实时速度更重要的应用,例如

  • 医学影像:可以对 YOLO12 进行定制培训,以高精度检测 X 射线和 MRI 中的肿瘤或异常,使其成为需要精确图像分析诊断的医生和放射科医生的有用工具。
  • 制造业的质量控制:
  • 法医分析:执法机构可以对 YOLO12 进行微调,以分析监控录像和收集证据。
  • 精准农业:农民可以使用 YOLO12 分析作物健康状况、检测病虫害并监测土壤条件。准确的评估有助于优化耕作策略,从而提高产量和改善资源管理。

开始使用 YOLO12

在运行 YOLO12 之前,确保您的系统满足必要的要求非常重要。

从技术上讲,YOLO12 可以在任何专用GPU (图形处理器)上运行。默认情况下,它不需要 FlashAttention,因此无需 FlashAttention 也能在大多数GPU 系统上运行。不过,在处理大型数据集或高分辨率图像时,启用 FlashAttention 尤其有用,因为它有助于防止速度变慢、减少内存使用并提高处理效率。 

要使用 FlashAttention,您需要使用以下系列中的NVIDIA ®)GPU :图灵(T4、Quadro RTX)、安培(RTX 30 系列、A30、A40、A100)、Ada Lovelace(RTX 40 系列)或 Hopper(H100、H200)。

考虑到可用性和可访问性,Ultralytics Python 软件包尚不支持 FlashAttention 推理,因为其安装在技术上相当复杂。要进一步了解如何开始使用 YOLO12 和优化其性能,请查看 Ultralytics 官方文档

主要收获

随着计算机视觉技术的发展,模型变得越来越精确和高效。YOLO12 通过以注意力为中心的处理和 FlashAttention 改进了对象检测、实例分割和图像分类等计算机视觉任务,在优化内存使用的同时提高了准确性。

与此同时,计算机视觉技术比以往任何时候都更易于使用。通过Ultralytics Python 软件包,YOLO12 很容易使用,它注重精度而非速度,非常适合医疗成像、工业检测和机器人技术这些精度至关重要的应用。

对人工智能感到好奇?访问我们的GitHub 存储库并与我们的社区互动。在我们的解决方案页面,探索自动驾驶汽车中的人工智能农业中的计算机视觉等领域的创新。查看我们的许可选项,将您的视觉人工智能项目付诸实践。🚀

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅