术语表

多种模式学习

探索人工智能中多模式学习的力量!探索模型如何整合多种数据类型,以更丰富地解决现实世界中的问题。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

多模态学习是人工智能(AI)机器学习(ML)的一个子领域,侧重于设计和训练能够处理和整合来自多种不同数据类型(称为模态)的信息的模型。常见的模式包括文本、图像(计算机视觉 (CV))、音频(语音识别)、视频和传感器数据(如激光雷达或温度读数)。多模态学习的核心目标是建立人工智能系统,通过利用不同数据源中的互补信息,对复杂场景进行更全面、类似人类的理解。

定义和核心概念

多模态学习包括训练算法来理解不同类型数据之间的关系和关联。学习过程不是孤立地分析每种模式,而是侧重于有效组合或融合信息的技术。主要概念包括

  • 信息融合:这指的是将来自不同模态的信息进行融合的方法。融合可以发生在不同阶段:早期(结合原始数据)、中期(结合从每种模态提取的特征)或后期(结合在每种模态上训练的单独模型的输出)。有效的信息融合对于发挥每种数据类型的优势至关重要。
  • 跨模态学习:这涉及学习表征,其中一种模式的信息可用于推断或检索另一种模式的信息(例如,从图像生成文字说明)。
  • 数据对齐:确保不同模态中的相应信息正确匹配(例如,将音轨中的口语词汇与视频中的相应视觉帧对齐)。正确的数据对齐通常是有效融合的先决条件。

多模态学习在很大程度上依赖于深度学习(DL)技术,使用变形器卷积神经网络(CNN)等架构来处理不同的输入,通常使用的框架包括 PyTorch(PyTorch 官方网站)或 TensorFlow(TensorFlow 官方网站)等框架。

相关性和应用

多模态学习的意义在于,它能够创建更强大、更多才多艺的人工智能系统,能够解决现实世界中信息本身具有多面性的复杂问题。如今,许多先进的人工智能模型,包括大型基础模型,都利用了多模态能力。

下面是几个如何应用多模态学习的具体例子:

其他重要应用包括自动驾驶(自动驾驶汽车中的人工智能),Waymo 等公司将摄像头、激光雷达和雷达的数据结合在一起;医学影像分析将成像数据与病人记录结合在一起;机器人中的人工智能应用,机器人将视觉、听觉和触觉信息整合一起,与周围环境进行互动(机器人学)。

主要区别

将多模式学习与相关术语区分开来很有帮助:

  • 多模式模型多模式学习(Multi-Modal Learning)是利用多种数据类型训练人工智能的过程研究领域。多模式模型是利用这些技术设计和训练的人工智能系统或架构。
  • 计算机视觉(CV)CV 专注于处理和理解视觉数据(图像、视频)。多模态学习超越了 CV,将视觉数据与文本或音频等其他模态整合在一起。
  • 自然语言处理(NLP)NLP 处理人类语言(文本、语音)的理解和生成。多模态学习将语言数据与图像或传感器读数等其他模态进行整合。
  • 基础模型这些模型是在大量数据基础上预先训练的大规模模型,通常设计为可适应各种下游任务。许多现代基础模型(如GPT-4)都包含多模态功能,但概念是不同的;多模态学习是构建这些强大模型时经常使用的一种方法

挑战与未来方向

多模态学习面临着独特的挑战,包括有效调整不同来源的数据、开发最佳融合策略以及处理一种或多种模态中的缺失或噪声数据。应对多模态学习中的这些挑战仍然是一个活跃的研究领域。

该领域发展迅速,人工智能系统的感知和推理能力越来越像人类,有可能推动人工通用智能(AGI)的发展。目前,Ultralytics HUB等平台主要为计算机视觉任务的工作流程提供便利,使用的模型包括 Ultralytics YOLO(等模型(例如 Ultralytics YOLOv8)用于物体检测,而更广泛的人工智能领域则表明,多模式功能的集成度正在不断提高。请关注Ultralytics 博客,了解有关新模型功能和应用的最新信息。有关该领域的更广泛概述,维基百科的多模态学习页面提供了更多阅读信息。

阅读全部