术语表

多种模式学习

探索人工智能中多模式学习的力量！探索模型如何整合多种数据类型，以更丰富地解决现实世界中的问题。

多模态学习是人工智能（AI）和机器学习（ML）的一个子领域，侧重于设计和训练能够处理和整合来自多种不同数据类型（称为模态）的信息的模型。常见的模式包括文本、图像（计算机视觉 (CV)）、音频（语音识别）、视频和传感器数据（如激光雷达或温度读数）。多模态学习的核心目标是建立人工智能系统，通过利用不同数据源中的互补信息，对复杂场景进行更全面、类似人类的理解。

定义和核心概念

多模态学习包括训练算法来理解不同类型数据之间的关系和关联。学习过程不是孤立地分析每种模式，而是侧重于有效组合或融合信息的技术。主要概念包括

信息融合：这指的是将来自不同模态的信息进行融合的方法。融合可以发生在不同阶段：早期（结合原始数据）、中期（结合从每种模态提取的特征）或后期（结合在每种模态上训练的单独模型的输出）。有效的信息融合对于发挥每种数据类型的优势至关重要。
跨模态学习：这涉及学习表征，其中一种模式的信息可用于推断或检索另一种模式的信息（例如，从图像生成文字说明）。
数据对齐：确保不同模态中的相应信息正确匹配（例如，将音轨中的口语词汇与视频中的相应视觉帧对齐）。正确的数据对齐通常是有效融合的先决条件。

多模态学习在很大程度上依赖于深度学习（DL）技术，使用变形器和卷积神经网络（CNN）等架构来处理不同的输入，通常使用的框架包括 PyTorch(PyTorch 官方网站）或 TensorFlow(TensorFlow 官方网站）等框架。

主要区别

将多模式学习与相关术语区分开来很有帮助：

多模式模型：多模式学习（Multi-Modal Learning）是利用多种数据类型训练人工智能的过程或研究领域。多模式模型是利用这些技术设计和训练的人工智能系统或架构。
计算机视觉（CV）：CV 专注于处理和理解视觉数据（图像、视频）。多模态学习超越了 CV，将视觉数据与文本或音频等其他模态整合在一起。
自然语言处理（NLP）：NLP 处理人类语言（文本、语音）的理解和生成。多模态学习将语言数据与图像或传感器读数等其他模态进行整合。
基础模型：这些模型是在大量数据基础上预先训练的大规模模型，通常设计为可适应各种下游任务。许多现代基础模型（如GPT-4）都包含多模态功能，但概念是不同的；多模态学习是构建这些强大模型时经常使用的一种方法。

挑战与未来方向

多模态学习面临着独特的挑战，包括有效调整不同来源的数据、开发最佳融合策略以及处理一种或多种模态中的缺失或噪声数据。应对多模态学习中的这些挑战仍然是一个活跃的研究领域。

该领域发展迅速，人工智能系统的感知和推理能力越来越像人类，有可能推动人工通用智能（AGI）的发展。目前，Ultralytics HUB等平台主要为计算机视觉任务的工作流程提供便利，使用的模型包括 Ultralytics YOLO(等模型（例如 Ultralytics YOLOv8）用于物体检测，而更广泛的人工智能领域则表明，多模式功能的集成度正在不断提高。请关注Ultralytics 博客，了解有关新模型功能和应用的最新信息。有关该领域的更广泛概述，维基百科的多模态学习页面提供了更多阅读信息。

多种模式学习

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

定义和核心概念

相关性和应用

主要区别

挑战与未来方向

阅读更多博客

加入Ultralytics 社区