术语表

多种模式学习

探索人工智能中多模式学习的力量!探索模型如何整合多种数据类型,以更丰富地解决现实世界中的问题。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

多模态学习(Multi-Modal Learning)是人工智能中一个令人兴奋的领域,其重点是训练模型来理解和处理来自多种类型数据(称为模态)的信息。多模态模型不依赖于图像或文本等单一来源,而是学会整合和推理各种数据类型,如图像、文本、音频、视频和传感器读数,从而获得对世界更丰富、更全面的理解。这种方法反映了人类的认知方式,即我们自然而然地将视觉、听觉、触觉和语言结合起来,从而理解周围的环境。

了解多种模式学习

多模式学习的核心是弥合不同形式数据之间的差距。通过同时对不同输入进行人工智能系统训练,这些模型学会捕捉复杂的关系和依赖性,而这些关系和依赖性在孤立分析每种模式时可能会被忽略。核心挑战包括找到有效的方法来表示和融合来自不同来源的信息,这通常被称为数据融合技术。这种融合使人工智能系统能够执行更复杂的任务,超越单一感知,实现更全面的理解。例如,分析视频的多模态模型可以同时解释视觉动作、口语对话、背景声音,甚至通过这些组合模态传达的情感基调,这正是情感计算等领域的重点。这与只关注计算机视觉(CV)自然语言处理(NLP)的传统方法形成了鲜明对比。

相关性和应用

多模态学习的意义在于,它能够创建更强大、更多才多艺的人工智能系统,能够解决现实世界中信息本身具有多面性的复杂问题。如今,许多先进的人工智能模型,包括大型基础模型,都利用了多模态能力。

下面是几个如何应用多模态学习的例子:

其他应用包括自动驾驶(将摄像头、激光雷达和雷达的数据结合在一起)和机器人技术中的人工智能应用(机器人将视觉、听觉和触觉信息整合一起,与周围环境进行互动)。

多模态学习在很大程度上依赖于深度学习(DL)技术,以处理各种数据类型的复杂性和规模。随着研究的深入,解决多模态学习中的难题(如对齐和融合)仍然是关键所在。目前,Ultralytics HUB等平台主要为计算机视觉任务的工作流程提供便利,使用的模型包括 Ultralytics YOLOv8等模型进行物体检测的工作流程,但 Ultralytics YOLO生态系统和更广泛的人工智能领域的发展表明,未来多模式功能的集成度将不断提高。请关注Ultralytics 博客,了解有关新模型功能和应用的最新信息。有关该领域的更广泛概述,维基百科的多模态学习页面提供了更多阅读信息。

阅读全部