绿色检查
链接复制到剪贴板

视觉模型的历史

探索视觉模型的历史、成就、挑战和未来方向。

什么是计算机视觉

想象一下,走进一家商店,摄像头会识别你的脸部特征,分析你的情绪,并根据你的喜好推荐产品--所有这一切都是实时的。这不是科幻小说,而是现代视觉模型带来的现实。根据《财富》商业洞察的报告,2023 年全球计算机视觉市场规模为 203.1 亿美元,预计将从 2024 年的 254.1 亿美元增长到 2032 年的 1 757.2 亿美元,这反映了该技术的快速发展和各行各业对该技术的日益采用。

计算机视觉领域使计算机能够检测、识别和分析图像中的物体。与其他人工智能相关领域类似,计算机视觉在过去几十年中经历了快速发展,取得了显著进步。 

计算机视觉的历史源远流长。早年,计算机视觉模型只能检测简单的形状和边缘,通常仅限于识别几何图案或区分明暗区域等基本任务。然而,今天的模型可以执行复杂的任务,如实时物体检测、面部识别,甚至从面部表情中解读情绪,而且准确性和效率都非常高。这一巨大进步凸显了在计算能力、算法复杂性和用于训练的海量数据可用性方面取得的惊人进步。

在本文中,我们将探讨计算机视觉发展过程中的重要里程碑。我们将回顾其早期的发展历程,深入探讨卷积神经网络(CNN)的变革性影响,并研究其后的重大进展。

计算机视觉的早期开端

与其他人工智能领域一样,计算机视觉的早期发展始于基础研究和理论工作。劳伦斯-罗伯茨(Lawrence G. Roberts)在 20 世纪 60 年代初的论文《三维实体的机器感知》中记录了他在三维物体识别方面的开创性工作,这是一个重要的里程碑。他的贡献为该领域未来的发展奠定了基础。

第一种算法 - 边缘检测

早期的计算机视觉研究侧重于边缘检测和特征提取等图像处理技术。20 世纪 60 年代末开发的索贝尔算子等算法,是最早通过计算图像强度梯度来检测边缘的算法之一。

图 1.展示边缘检测的图像,左侧为原始物体,右侧为边缘检测后的物体。

索贝尔(Sobel)和坎尼(Canny)边缘检测器等技术在识别图像中的边界方面发挥了重要作用,这对于识别物体和理解场景至关重要。

机器学习和计算机视觉

模式识别

20 世纪 70 年代,模式识别成为计算机视觉的一个关键领域。研究人员开发出了识别图像中形状、纹理和物体的方法,为更复杂的视觉任务铺平了道路。

图 2.模式识别。

早期的模式识别方法之一是模板匹配法,即把图像与一组模板进行比较,找出最佳匹配点。这种方法由于对比例、旋转和噪音变化的敏感性而受到限制。

图 3.右图中左边的模板。

早期的计算机视觉系统受制于当时有限的计算能力。二十世纪六七十年代的计算机体积庞大、价格昂贵,而且处理能力有限。

用深度学习改变游戏规则

深度学习和卷积神经网络

深度学习和卷积神经网络(CNN)标志着计算机视觉领域的一个关键时刻。这些进步极大地改变了计算机解释和分析视觉数据的方式,实现了以前认为不可能实现的广泛应用。

CNN 如何工作?

图 4.卷积神经网络 (CNN) 的结构。

  1. 卷积层:CNN 使用卷积层,卷积层是一种深度学习模型,设计用于通过自动学习分层模式来处理结构化网格状数据,如图像或序列。这些过滤器通过在图像上滑动并计算点积来检测边缘、纹理和颜色等各种特征。每个过滤器都会激活图像中的特定模式,从而使模型能够学习分层特征。
  2. 激活函数:在卷积之后,激活函数(如ReLU(整流线性单元),它是深度学习中一种流行的激活函数,如果输入为正则直接输出,反之则输出为零,从而帮助神经网络高效地学习数据中的非线性关系。这有助于网络学习复杂的模式和表征。
  3. 池化层池化层提供了一种降采样操作,可降低特征图的维度,有助于提取最相关的特征,同时降低计算成本和过度拟合。
  4. 全连接层:CNN 的最后一层是全连接层,用于解释卷积层和池化层提取的特征,从而做出预测。这些层与传统神经网络中的层类似。

CNN 视觉模型的进化

‍视觉模型的发展历程是漫长的,其中有一些最引人注目:

  • LeNet(1989 年):LeNet 是最早的 CNN 架构之一,主要用于手写支票中的数字识别。它的成功为更复杂的 CNN 奠定了基础,证明了深度学习在图像处理方面的潜力。
  • AlexNet(2012 年):在 ImageNet 竞赛中,AlexNet 的表现明显优于现有模型,展示了深度学习的威力。该模型利用 ReLU 激活、丢弃和数据扩增,在图像分类领域树立了新的标杆,并引发了人们对 CNN 的广泛兴趣。
  • VGGNet(2014 年):通过使用较小的卷积滤波器(3x3),VGGNet 在图像分类任务中取得了令人印象深刻的成果,从而加强了网络深度对实现更高精度的重要性。
  • ResNet(2015 年):ResNet 通过引入残差学习,解决了深度网络的退化问题。这一创新允许训练更深度的网络,从而在各种计算机视觉任务中实现最先进的性能。
  • YOLO (You Only Look Once):YOLO 将物体检测作为一个单一的回归问题,在一次评估中直接预测完整图像的边界框和类概率,从而彻底改变了物体检测。这种方法以前所未有的速度和准确性实现了实时物体检测,使其适用于自动驾驶监控等需要即时处理的应用。

计算机视觉应用

医疗保健

计算机视觉用途非常广泛。例如,视觉模型 Ultralytics YOLOv8等视觉模型可用于医学成像,检测癌症和糖尿病视网膜病变等疾病。它们能高精度地分析 X 射线、核磁共振成像和 CT 扫描,及早发现异常。这种早期检测能力有助于及时干预和改善患者的治疗效果。

图 5.脑肿瘤检测 Ultralytics YOLOv8.

环境保护

计算机视觉模型通过分析野生动物栖息地的图像和视频,帮助监测和保护濒危物种。它们可以识别和跟踪动物行为,提供有关其数量和活动的数据。这项技术为保护老虎和大象等物种的保护战略和决策提供了依据。

在视觉人工智能的帮助下,还可以监测野火和森林砍伐等其他环境威胁,确保地方当局快速做出反应。

图 6.野火的卫星图像。

挑战与未来方向

尽管视觉模型已经取得了重大成就,但由于其极端复杂性和开发的艰巨性,视觉模型还面临着许多挑战,需要不断进行研究并在未来取得进步。

可解释性和可说明性

视觉模型,尤其是深度学习模型,通常被视为透明度有限的 "黑盒子"。这是因为这类模型复杂得令人难以置信。缺乏可解释性阻碍了信任和问责,尤其是在医疗保健等关键应用领域。

计算要求

训练和部署最先进的人工智能模型需要大量的计算资源。视觉模型尤其如此,通常需要处理大量图像和视频数据。高清图像和视频是数据密集度最高的训练输入,加重了计算负担。例如,单张高清图像就可能占用几兆字节的存储空间,使训练过程成为资源密集型的耗时过程。这就需要强大的硬件和优化的计算机视觉算法来处理大量数据和复杂的计算,从而开发出有效的视觉模型。对更高效架构、模型压缩以及 GPU 和 TPU 等硬件加速器的研究是推动未来视觉模型发展的关键领域。这些改进旨在降低计算需求,提高处理效率。此外,利用先进的预训练模型,如 YOLOv8等先进的预训练模型可以大大减少大量训练的需求,从而简化开发流程并提高效率。

不断变化的景观

如今,视觉模型的应用非常广泛,从肿瘤检测等医疗保健领域,到交通监控等日常生活领域,不一而足。这些先进的模型提高了准确性、效率和功能,为无数行业带来了创新,这在以前是无法想象的。随着技术的不断进步,视觉模型在创新和改善生活和工业各方面的潜力依然无穷。这种持续的演变凸显了计算机视觉领域持续研发的重要性。

对视觉人工智能的未来充满好奇?有关最新进展的更多信息,请访问Ultralytics 文档,并查看Ultralytics GitHub 和 YOLOv8 GitHub 上的项目。此外,要深入了解人工智能在各行各业的应用," 自动驾驶汽车"和 "制造业"解决方案页面提供了特别有用的信息。

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅