绿色检查
链接复制到剪贴板

生成式人工智能正在改变计算机视觉的未来之路

从YOLO Vision 2024 的小组讨论中发现有趣的见解。探索生成式人工智能如何塑造实时视觉人工智能模型的未来之路。

生成式人工智能(Generative AI)是人工智能(AI)的一个分支,它通过从现有数据中学习模式来创建新的内容,如图像、文本或音频。由于最近的进步,它现在可以用来制作高度逼真的内容,通常可以模仿人类的创造力。

然而,生成式人工智能的影响不仅限于创建内容。随着Ultralytics YOLO 模型等实时计算机视觉模型的不断发展,生成式人工智能也在重新定义视觉数据的处理和增强方式,为现实世界中的创新应用铺平了道路。 

在Ultralytics 主办的年度混合活动YOLO Vision 2024(YV24)上,这种新的技术转变成为一个有趣的话题。在 YV24 上,人工智能爱好者和行业领袖齐聚一堂,共同探讨计算机视觉领域的最新突破。活动重点关注创新、效率和实时人工智能解决方案的未来。

本次活动的亮点之一是关于 "生成式人工智能时代的YOLO "的小组讨论。Ultralytics 创始人兼首席执行官格伦-乔彻(Glenn Jocher)、Ultralytics 高级机器学习工程师邱晶(Jing Qiu)和清华大学的王敖(Ao Wang)参加了小组讨论。他们探讨了生成式人工智能如何影响计算机视觉,以及建立实用人工智能模型所面临的挑战。

在本文中,我们将重温他们讨论中的关键见解,并仔细研究生成式人工智能如何改变视觉人工智能。

开发Ultralytics YOLO 模型

除了格伦-约切尔(Glenn Jocher)之外,许多技术精湛的工程师也在开发Ultralytics YOLO 模型的过程中发挥了重要作用。其中一位名叫 Jing Qiu 的工程师讲述了他与YOLO 的不期而遇。他解释说,他对人工智能的热情始于大学时期。他花了大量时间探索和学习这一领域。Jing Qiu 回忆了他是如何在 GitHub 上与 Glenn Jocher 建立联系并参与各种人工智能项目的。

除了邱晶所说的,Glenn Jocher 还将 GitHub 描述为 "一种令人难以置信的分享方式--在这里,你从未见过的人聚集在一起,互相帮助,为彼此的工作做出贡献。这是一个伟大的社区,也是人工智能入门的绝佳途径"。

图 1.Glenn Jocher 和 Jing Qiu 在 YV24 上台发言。

邱晶对人工智能的兴趣以及他在 Ultralytics YOLOv5帮助完善了模型。后来,他在开发 Ultralytics YOLOv8中发挥了关键作用。他形容这是一段不可思议的旅程。如今,Jing Qiu 仍在继续改进和开发以下模型 Ultralytics YOLO11

YOLOv10:针对实际性能进行了优化

Ao Wang 从中国远程参加了小组讨论,他介绍说自己是一名博士生。他最初学习的是软件工程,但对人工智能的热情让他转向了计算机视觉和深度学习。

他第一次接触著名的YOLO 模型是在尝试各种人工智能技术和模型时。YOLO模型的速度和准确性给他留下了深刻印象,这激发了他深入研究计算机视觉任务(如物体检测)的兴趣。最近,王敖为 YOLOv10(YOLO 模型的最新版本)做出了贡献。他的研究重点是优化模型,使其更快、更准确。

生成式人工智能与视觉人工智能的主要区别

随后,小组成员开始讨论生成式人工智能,邱晶指出,生成式人工智能和视觉人工智能的目的截然不同。生成式人工智能创造或生成文本、图像和视频等事物,而视觉人工智能则分析已经存在的事物,主要是图像。

格伦-乔彻强调,规模也是一个很大的区别。生成式人工智能模型非常庞大,通常包含数十亿个参数,这些参数是帮助模型从数据中学习的内部设置。计算机视觉模型则小得多。他说:"我们拥有的最小的YOLO 模型比最小的 LLM(大型语言模型)要小一千倍。因此,300 万个参数比 30 亿个参数要小得多。

图 3.YV24 上关于生成式人工智能和视觉人工智能的小组讨论。

邱晶补充说,生成式人工智能与计算机视觉的训练和部署过程也有很大不同。生成式人工智能需要庞大、强大的服务器才能运行。而像YOLO 这样的模型则是为了提高效率而构建的,可以在标准硬件上进行训练和部署。这使得Ultralytics YOLO 模型在现实世界中更加实用。

尽管这两个领域各不相同,但它们正开始交织在一起。Glenn Jocher 阐述说,生成式人工智能正在为视觉人工智能带来新的进步,使模型变得更智能、更高效。 

生成式人工智能对计算机视觉的影响

生成式人工智能发展迅速,这些突破正在影响人工智能的许多其他领域,包括计算机视觉。接下来,让我们来看看专家小组对此发表的一些精彩见解。

硬件进步助力人工智能创新

格伦-约切尔(Glenn Jocher)在小组讨论的一开始就解释说,机器学习的想法由来已久,但当时的计算机还不够强大,无法让它们发挥作用。人工智能的想法需要更强大的硬件来实现。

在过去 20 年里,具有并行处理能力的 GPU(图形处理器)的兴起改变了一切。它们使人工智能模型的训练速度更快、效率更高,从而使深度学习得以快速发展。

如今,TPU(Tensor 处理单元)和优化的 GPU 等人工智能芯片在处理更大、更复杂的模型时耗电量更低。这使得人工智能在现实世界的应用中更加容易获得和有用。

随着每一次新硬件的改进,生成式人工智能和计算机视觉应用都变得更加强大。这些进步使实时人工智能变得更快、更高效,并可用于更多行业。

生成式人工智能如何塑造物体检测模型

当被问及生成式人工智能如何影响计算机视觉时,邱晶说,变换器--帮助人工智能专注于图像中最重要部分的模型--改变了人工智能理解和处理图像的方式。DETR(Detection Transformer,检测变换器)是第一步,它使用这种新方法进行物体检测。它提高了准确性,但也存在性能问题,在某些情况下速度较慢。

为了解决这个问题,研究人员创建了RT-DETR 等混合模型。这些模型结合了卷积神经网络(CNN,一种深度学习模型,可自动学习并提取图像中的特征)和变换器,在速度和准确性之间取得了平衡。这种方法既能利用变换器的优势,又能加快物体检测速度。

有趣的是,YOLOv10使用了基于变压器的注意力层(模型的一部分就像聚光灯,可以突出图像中最重要的区域,而忽略不太相关的细节)来提高性能。 

王敖还提到了生成式人工智能如何改变模型的训练方式。遮蔽图像建模等技术有助于人工智能更高效地从图像中学习,从而减少对大型人工标注数据集的需求。这使得计算机视觉训练速度更快,资源密集度更低。

生成式人工智能和视觉人工智能的未来 

小组讨论的另一个重要观点是,如何将生成式人工智能和视觉人工智能结合起来,以建立能力更强的模型。格伦-约切尔解释说,虽然这两种方法各有所长,但将它们结合起来可以开辟新的可能性。 

例如,像YOLO 这样的视觉人工智能模型经常将图像分成网格来识别物体。这种基于网格的方法可以帮助语言模型提高精确定位细节和描述细节的能力--这是目前许多语言模型面临的挑战。从本质上讲,将这些技术融合在一起,可能会开发出能够准确检测并清晰解释所见内容的系统。

图 4.生成式人工智能和视觉人工智能的未来。图片由作者提供。

主要收获

生成式人工智能和计算机视觉正在共同进步。在生成式人工智能创建图像和视频的同时,它还能改进图像和视频分析,带来新的创新理念,使视觉人工智能模型更加准确和高效。 

在这场深入浅出的 YV24 小组讨论中,Glenn Jocher、Jing Qiu 和 Ao Wang 分享了他们对这些技术如何塑造未来的看法。有了更好的人工智能硬件,生成式人工智能和视觉人工智能将继续发展,带来更大的创新。这两个领域正在共同努力,为日常生活创造更智能、更快速、更有用的人工智能。

加入我们的社区,探索我们的GitHub 存储库,了解更多有关视觉人工智能的信息。查看我们的许可选项,启动您的计算机视觉项目。对制造业中的人工智能 自动驾驶中的计算机视觉等创新感兴趣?访问我们的解决方案页面,了解更多信息。 

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅