X
YOLO Vision 2024 is here!
YOLO Vision 24
2024 年 9 月 27 日
YOLO Vision 24
Free hybrid event
绿色检查
链接复制到剪贴板

探索计算机视觉应用的工作原理

和我们一起深入了解计算机视觉的应用。我们还将介绍各种计算机视觉任务,如物体检测和分割。

当我们探索计算机视觉模型的历史时,我们看到了计算机视觉是如何发展的,以及通往我们今天所拥有的先进视觉模型的道路。现代模型如 Ultralytics YOLOv8等现代模型支持多种计算机视觉任务,并被用于各种令人兴奋的应用中。 

本文将介绍计算机视觉和视觉模型的基础知识。我们将介绍它们的工作原理及其在各行各业的不同应用。计算机视觉创新无处不在,默默地塑造着我们的世界。让我们逐一揭开它们的神秘面纱! 

什么是计算机视觉?

人工智能(AI)是一个总括术语,包含许多旨在复制人类智能一部分的技术。计算机视觉就是人工智能的一个子领域。计算机视觉的重点是让机器拥有一双能够看到、观察和理解周围环境的眼睛。 

与人类视觉一样,计算机视觉解决方案也旨在分辨物体、计算距离和检测运动。然而,与人类不同的是,人类有一生的经验来帮助他们观察和理解,而计算机则依赖于大量的数据、高清摄像头和复杂的算法。 

图 1.人类视觉与计算机视觉的比较。

计算机视觉系统能以惊人的速度和精度处理和分析图像和视频等视觉数据。快速准确地分析大量视觉信息的能力使计算机视觉成为从制造业医疗保健业等各行各业的强大工具。

视觉模型支持各种计算机视觉任务

计算机视觉模型是任何计算机视觉应用的核心。它们本质上是由深度学习技术驱动的计算算法,旨在赋予机器解释和理解视觉信息的能力。视觉模型可以完成从图像分类物体检测等重要的计算机视觉任务。让我们来详细了解其中的一些任务及其用例。 

图像分类

图像分类涉及将图像归类并标记为预定义的类别。像 YOLOv8这样的视觉模型可以在标注图像的大型数据集上进行训练。在训练过程中,模型学会识别与每个类别相关的模式和特征。训练完成后,它就可以通过分析新的、未见过的图像的特征,并将其与学习到的模式进行比较,从而预测这些图像的类别。 

图 2.图像分类示例。

图像分类有多种类型。例如,在处理医学图像时,可以使用二元分类法将图像分为两组,如健康或生病。另一种类型是多类分类。它可以帮助将图像分为许多组,比如将农场中的不同动物分类,如猪、山羊和奶牛。或者,假设您想将动物分为群组和子群,比如将动物分为哺乳动物和鸟类,然后再进一步分为狮子、老虎、老鹰和麻雀等物种,那么分级分类就是最好的选择。

物体检测

物体检测是利用计算机视觉识别和定位图像和视频帧中物体的过程。它包括两项任务:物体定位(在物体周围绘制边界框)和物体分类(识别每个物体的类别)。根据边框注释,视觉模型可以学习识别每个物体类别的特定模式和特征,并预测这些物体在新的未见图像中的存在和位置。 

图 3.YOLOv8 物体检测用于检测足球场上的球员。

物体检测在各行各业都有很多应用案例,从体育运动到海洋生物,无所不包。例如,在零售业亚马逊的 "Just Walk Out "技术通过识别顾客取走的物品,利用物体检测实现自动结账。结合计算机视觉和传感器数据,顾客可以拿起物品离开,无需排队等候。 

下面我们来看看它是如何工作的:

  • 安装在天花板上的摄像头可以捕捉到顾客在店内的一举一动,视觉模型会对这些视频片段进行实时处理。
  • 对象检测用于检测客户拿起并放入购物篮的确切产品,从而相应地更新其虚拟购物车。
  • 货架上的重量传感器可检测物品的移除或更换,从而提高准确性。
  • 当顾客走出商店时,可以利用物体检测和面部识别技术确认顾客已经离开,并利用他们的付款信息(如信用卡)自动向他们收取费用。

语义和实例分割

语义分割和实例分割是计算机视觉任务,有助于将图像分割成有意义的片段。语义分割根据像素的语义对其进行分类,并将一个类别中的所有对象视为具有相同标签的单一实体。它适用于标记 "天空 "或 "海洋 "等不可数对象,或 "树叶 "或 "草 "等群集。

另一方面,实例分割可以通过为每个检测到的对象分配一个唯一的标签来区分同一类别的不同实例。您可以使用实例分割来分割可数对象,因为对象的数量和独立性非常重要。它可以实现更精确的识别和区分。

图 4.语义和实例分割示例。

通过一个与自动驾驶汽车相关的例子,我们可以更清楚地理解语义分割与实例分割之间的对比。语义分割非常适合需要理解场景内容的任务,可用于自动驾驶汽车对道路上的行人过街和交通标志等特征进行分类。同时,实例分割可用于自动驾驶汽车,以识别单个行人、车辆和障碍物。 

姿势估计

姿势估计是一项计算机视觉任务,重点是检测和跟踪图像或视频中物体姿势的关键点。它最常用于人体姿势估计,关键点包括肩膀和膝盖等部位。估计人体姿势有助于我们理解和识别对各种应用至关重要的动作和运动。

图 5.使用YOLOv8 进行姿态估计的示例。

姿势估计可用于体育运动,分析运动员的移动方式。NBA使用姿势估计来研究球员在比赛中的动作和位置。通过跟踪肩部、肘部、膝盖和脚踝等关键点,姿势估计可以详细了解球员的动作。这些洞察力可以帮助教练制定更好的策略、优化训练计划,并在比赛中进行实时调整。此外,这些数据还有助于监测球员的疲劳程度和受伤风险,从而提高球员的整体健康水平和表现。

定向边框对象检测

定向边框对象检测(OBB)使用旋转矩形来精确识别和定位图像中的对象。与根据图像轴对齐的标准边界框不同,OBB 可根据物体的方向进行旋转。这使得它们对于并非完全水平或垂直的物体特别有用。它们能准确定位和隔离旋转物体,防止在拥挤的环境中出现重叠。

图 6.使用YOLOV8 在航拍船图像上进行定向边界框检测的示例。

海上监视中,识别和跟踪船只是安全和资源管理的关键。OBB 检测可用于船舶的精确定位,即使船舶密集或以不同角度排列。它有助于监控航道、管理海上交通和优化港口运营。它还可以在飓风或石油泄漏等事件发生后,通过快速识别和评估船舶和基础设施的损坏情况,协助灾难响应。

物体跟踪

到目前为止,我们已经讨论了处理图像的计算机视觉任务。物体跟踪是一种计算机视觉任务,可以在视频的整个帧中跟踪一个物体。它首先使用检测算法识别第一帧中的物体,然后随着物体在视频中的移动持续跟踪其位置。物体跟踪涉及物体检测、特征提取和运动预测等技术,以保证跟踪的准确性。

图 7.使用YOLOv8 跟踪鱼群。

YOLOv8 等视觉模型可用于追踪海洋生物中的鱼类。利用水下摄像机,研究人员可以监控鱼类在自然栖息地的活动和行为。这一过程首先是在第一帧图像中检测单条鱼,然后在整个视频中跟踪它们的位置。跟踪鱼类有助于科学家了解鱼类的迁徙模式、社会行为以及与环境的相互作用。通过深入了解鱼类的分布和数量,它还能支持可持续的捕鱼实践。

计算机视觉的最后一瞥

计算机视觉正在积极改变我们使用技术和与世界互动的方式。通过使用深度学习模型和复杂算法来理解图像和视频,计算机视觉帮助各行各业简化了许多流程。物体检测和物体跟踪等计算机视觉任务使我们有可能创造出前所未有的解决方案。随着计算机视觉技术的不断进步,未来将有更多的创新应用! 

让我们一起学习和成长!浏览我们的GitHub 资料库,了解我们对人工智能的贡献。看看我们是如何用人工智能重新定义自动驾驶汽车农业等行业的。🚀

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅