Glossaire

Modèle multimodal

Découvre comment les modèles d'IA multimodale intègrent du texte, des images et bien plus encore pour créer des systèmes robustes et polyvalents pour les applications du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les modèles multimodaux représentent une avancée significative dans le domaine de l'intelligence artificielle (IA) en traitant et en intégrant des informations provenant de plusieurs types de sources de données, appelées modalités. Contrairement aux modèles traditionnels qui peuvent se concentrer uniquement sur les images ou le texte, les systèmes multimodaux combinent des entrées comme le texte, les images, l'audio, la vidéo et les données des capteurs pour parvenir à une compréhension plus holistique et plus humaine des scénarios complexes. Cette intégration leur permet de saisir les relations complexes et le contexte que les modèles à modalité unique pourraient manquer, ce qui conduit à des applications d'IA plus robustes et plus polyvalentes, explorées plus en détail dans des ressources telles que le BlogUltralytics .

Définition

Un modèle multimodal est un système d'IA conçu et formé pour traiter, comprendre et relier simultanément des informations provenant de deux ou plusieurs modalités de données distinctes. Les modalités courantes comprennent les données visuelles (images, vidéo), auditives (parole, sons), textuelles(traitement du langage naturel - NLP) et d'autres données de capteurs (comme le LiDAR ou les relevés de température). L'idée centrale est la fusion d'informations - combiner les forces de différents types de données pour parvenir à une compréhension plus approfondie. Par exemple, pour bien comprendre une vidéo, il faut traiter les images visuelles, les dialogues parlés (audio) et éventuellement les légendes ou sous-titres. En apprenant les corrélations et les dépendances entre ces modalités pendant le processus de formation de l'apprentissage automatique (ML), souvent en utilisant des techniques d'apprentissage profond (DL), ces modèles développent une compréhension plus riche et plus nuancée que ce qui est possible en analysant chaque modalité de manière isolée.

Pertinence et applications

L'importance des modèles multimodaux s'accroît rapidement car les informations du monde réel sont intrinsèquement multiformes. Les humains perçoivent naturellement le monde à l'aide de plusieurs sens ; doter l'IA de capacités similaires permet de créer des applications plus sophistiquées et plus sensibles au contexte. Ces modèles sont cruciaux lorsque la compréhension dépend de l'intégration de divers flux de données, ce qui permet d'améliorer la précision des tâches complexes.

Voici quelques exemples concrets de leur application :

Concepts clés et distinctions

Pour comprendre les modèles multimodaux, il faut se familiariser avec des concepts connexes :

  • Apprentissage multimodal: Il s'agit du sous-domaine de l'apprentissage multimodal axé sur le développement des algorithmes et des techniques utilisés pour former des modèles multimodaux. Il aborde des défis tels que l'alignement des données et les stratégies de fusion, souvent discutés dans les articles académiques.
  • Modèles de fondation: De nombreux modèles de fondation modernes, tels que le GPT-4, sont intrinsèquement multimodaux, capables de traiter à la fois du texte et des images. Ces grands modèles servent de base qui peut être affinée pour des tâches spécifiques.
  • Les grands modèles de langage (LLM): Bien qu'ils soient apparentés, les LLM se concentrent traditionnellement sur le traitement du texte. Les modèles multimodaux sont plus larges, explicitement conçus pour traiter et intégrer des informations provenant de différents types de données au-delà du simple langage. Certains LLM avancés ont cependant développé des capacités multimodales.
  • Modèles de vision spécialisés : Les modèles multimodaux diffèrent des modèles spécialisés de vision par ordinateur (VA) tels que Ultralytics YOLO. Alors qu'un modèle multimodal comme GPT-4 peut décrire une image ("Il y a un chat assis sur un tapis"), un modèle YOLO excelle dans la détection d'objets ou la segmentation d'instances, localisant précisément le chat à l'aide d'une boîte englobante ou d'un masque de pixels. Ces modèles peuvent être complémentaires ; YOLO identifie se trouvent les objets, tandis qu'un modèle multimodal peut interpréter la scène ou répondre à des questions à son sujet. Jette un coup d'œil aux comparaisons entre les différents modèles YOLO .
  • Architecture du transformateur: L'architecture du transformateur, présentée dans "L'attention est tout ce dont tu as besoin", est fondamentale pour de nombreux modèles multimodaux réussis, car elle permet de traiter et d'intégrer efficacement différentes séquences de données grâce à des mécanismes d'attention.

Le développement et le déploiement de ces modèles font souvent appel à des frameworks tels que PyTorch et TensorFlowLes plateformes comme Ultralytics HUB peuvent aider à gérer les ensembles de données et les flux de travail de formation des modèles, bien que HUB se concentre actuellement davantage sur les tâches spécifiques à la vision. La capacité à faire le lien entre différents types de données fait des modèles multimodaux une étape vers une IA plus complète, contribuant potentiellement à la future intelligence générale artificielle (AGI).

Tout lire