与我们一起回顾物体检测的发展历程。我们将重点关注YOLO (只看一次)模型在过去几年中的发展。
计算机视觉是人工智能(AI)的一个子领域,主要研究如何让机器看到并理解图像和视频,就像人类感知真实世界一样。虽然识别物体或识别动作对人类来说是第二天性,但对于机器来说,这些任务需要特定和专业的计算机视觉技术。例如,计算机视觉的一项关键任务是物体检测,它涉及在图像或视频中识别和定位物体。
自 20 世纪 60 年代以来,研究人员一直致力于改进计算机检测物体的方法。早期的方法,如模板匹配法,是在图像上滑动预定义的模板来寻找匹配对象。这些方法虽然具有创新性,但却难以应对物体大小、方向和光照的变化。如今,我们有了先进的模型,比如 Ultralytics YOLO11这样的先进模型,甚至可以检测到小的和部分隐藏的物体,即所谓的被遮挡物体,其准确性令人印象深刻。
随着计算机视觉的不断发展,回顾这些技术的发展历程显得尤为重要。在本文中,我们将探讨物体检测的发展历程,并揭示YOLO (You Only Look Once)模型的转变。让我们开始吧!
在深入研究物体检测之前,让我们先来了解一下计算机视觉是如何起步的。计算机视觉的起源可以追溯到 20 世纪 50 年代末和 60 年代初,当时科学家们开始探索大脑是如何处理视觉信息的。研究人员戴维-胡贝尔(David Hubel)和托斯滕-维塞尔(Torsten Wiesel)在对猫进行实验时发现,大脑会对边缘和线条等简单图案做出反应。这为特征提取--视觉系统先检测并识别图像中的基本特征(如边缘),然后再识别更复杂的图案--的概念奠定了基础。
大约在同一时期,出现了可以将物理图像转化为数字格式的新技术,激发了人们对机器如何处理视觉信息的兴趣。1966 年,麻省理工学院(MIT)的夏季视觉项目(Summer Vision Project)进一步推动了这一进程。虽然该项目没有完全成功,但其目标是创建一个能将图像中的前景与背景分开的系统。对于视觉人工智能界的许多人来说,这个项目标志着计算机视觉作为一个科学领域的正式开始。
20 世纪 90 年代末和 21 世纪初,随着计算机视觉技术的发展,物体检测方法也从模板匹配等基本技术转向更先进的方法。Haar Cascade 是一种流行的方法,被广泛用于人脸检测等任务。它的工作原理是用滑动窗口扫描图像,检查图像每个部分的边缘或纹理等特定特征,然后将这些特征组合起来检测人脸等物体。Haar Cascade 比以前的方法要快得多。
与此同时,定向梯度直方图(HOG)和支持向量机(SVM)等方法也被引入。HOG 使用滑动窗口技术分析图像小部分区域的光影变化,有助于根据物体的形状识别物体。然后,SVM对这些特征进行分类,以确定物体的身份。这些方法提高了准确性,但在真实世界环境中仍有困难,而且与当今的技术相比速度较慢。
2010 年代,深度学习和卷积神经网络(CNN)的兴起为物体检测带来了重大变革。CNN 使计算机能够从大量数据中自动学习重要特征,从而使检测更加准确。
早期的模型,如R-CNN(基于区域的卷积神经网络),在精确度上有了很大的提高,有助于比旧式方法更准确地识别物体。
然而,这些模型处理图像的速度较慢,因为它们需要分多个阶段进行处理,因此不适合用于自动驾驶汽车或视频监控等领域的实时应用。
为了加快速度,我们开发了更高效的模型。快速 R-CNN 和更快 R-CNN 等模型改进了选择感兴趣区域的方式,并减少了检测所需的步骤。虽然这加快了物体检测的速度,但对于许多需要即时结果的实际应用来说,速度仍然不够快。对实时检测日益增长的需求推动了更快、更高效的解决方案的开发,从而在速度和准确性之间取得平衡。
YOLO是一种物体检测模型,通过对图像和视频中的多个物体进行实时检测,重新定义了计算机视觉,使其与以往的检测方法截然不同。YOLO的架构将物体检测作为一项单一任务来处理,而不是单独分析每个检测到的物体,它使用 CNN 一次预测物体的位置和类别。
该模型的工作原理是将图像划分为一个网格,每个部分负责检测各自区域内的物体。它对每个部分进行多次预测,并过滤掉信心不足的结果,只保留准确的结果。
YOLO 引入计算机视觉应用后,物体检测的速度和效率大大超过了早期的模型。由于速度快、精度高,YOLO 很快成为制造、医疗保健和机器人等行业实时解决方案的热门选择。
值得注意的另一点是,由于YOLO 是开源的,因此开发人员和研究人员能够不断改进它,从而开发出更先进的版本。
YOLO 随着时间的推移,"Microsoft "和 "Nexus "模型在每个版本的基础上都有了稳步的改进。在提高性能的同时,这些改进也让具有不同技术经验的人更容易使用这些模型。
例如,当 Ultralytics YOLOv5的引入,模型的部署变得更加简单。 PyTorch,让更多用户可以使用高级人工智能。它将准确性和可用性结合在一起,让更多人能够实现物体检测,而无需成为编码专家。
Ultralytics YOLOv8 通过增加对实例分割等任务的支持,以及使模型更加灵活, 继续取得进展。无论是基本应用还是更复杂的应用,使用YOLO 都变得更加容易,使其在各种情况下都能发挥作用。
最新型号 Ultralytics YOLO11进行了进一步优化。通过减少参数数量,同时提高准确性,它现在可以更高效地完成实时任务。无论您是经验丰富的开发人员,还是人工智能领域的新手,YOLO11 都能为您提供先进的物体检测方法。
YOLO11 UltralyticsYOLO 它支持与YOLOv8 相同的 计算机视觉任务,如对象检测、实例分割、图像分类和姿态估计。因此,用户无需调整工作流程即可轻松切换到这一新模式。此外,YOLO11的升级架构使预测更加精确。事实上,YOLO11m 在COCO 数据集上实现了更高的平均精度(mAP),参数数量比YOLOv8m 少了 22%。
YOLO11 此外,它还能在从智能手机和其他边缘设备到更强大的云系统等一系列平台上高效运行。这种灵活性确保了实时应用在不同硬件设置下的流畅性能。此外,YOLO11 速度更快、效率更高,可降低计算成本并加快推理时间。无论是使用Ultralytics Python 软件包还是无代码Ultralytics HUB,它都能轻松集成到您现有的工作流程中。 YOLO11到您现有的工作流程中。
各行各业都已感受到高级物体检测对实时应用和边缘人工智能的影响。随着石油天然气、医疗保健和零售等行业越来越依赖人工智能,对快速、精确的物体检测的需求也在不断增加。YOLO11 旨在满足这一需求,即使在计算能力有限的设备上也能实现高性能检测。
随着边缘人工智能的发展,像YOLO11 这样的物体检测模型对于在速度和准确性要求极高的环境中进行实时决策将变得更加重要。随着设计和适应性的不断改进,未来的物体检测将在各种应用中带来更多创新。
YOLO 模型是这一进步的核心,为不同行业提供了更快更准确的实时检测。YOLO11 在此基础上提高了效率、降低了计算成本并增强了准确性,使其成为各种实时应用的可靠选择。随着人工智能和计算机视觉技术的不断进步,物体检测的前景一片光明,在速度、精度和适应性方面还有更大的提升空间。
对人工智能感到好奇?与我们的社区保持联系,不断学习!查看我们的GitHub 存储库,了解我们如何利用人工智能为制造和医疗保健等行业创造创新解决方案。🚀