Glossaire

Modèle multimodal

Découvre comment les modèles d'IA multimodale intègrent du texte, des images et bien plus encore pour créer des systèmes robustes et polyvalents pour les applications du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le modèle multimodal dans l'IA et l'apprentissage automatique fait référence à un type de modèle conçu pour traiter et comprendre les informations provenant de plusieurs types de données d'entrée, ou modalités. Au lieu de s'appuyer sur un seul type de données, comme des images ou du texte, les modèles multimodaux peuvent traiter et intégrer diverses formes de données pour obtenir une compréhension plus complète des informations. Cette approche permet souvent de créer des systèmes d'intelligence artificielle plus robustes et plus polyvalents.

Définition

Un modèle multimodal est un modèle d'IA qui est formé pour traiter et mettre en relation des informations provenant de deux ou plusieurs modalités de données distinctes. Ces modalités peuvent inclure du texte, des images, de l'audio, de la vidéo, des données de capteurs, et bien plus encore. En apprenant à partir des relations et des dépendances entre ces différents types de données, les modèles multimodaux peuvent parvenir à une compréhension plus riche et plus nuancée des données complexes que les modèles limités à une seule modalité. Cette intégration permet au modèle de tirer parti des forces de chaque modalité, en surmontant les limites inhérentes aux approches monomodales.

Pertinence et applications

La pertinence des modèles multimodaux augmente rapidement car les données du monde réel sont intrinsèquement multiformes. Ils sont cruciaux dans les applications où la compréhension du contexte à partir de différentes sources est essentielle. Voici quelques exemples :

  • Modèles de langage visuel (VLM) : Des modèles comme Florence-2 et PaliGemma 2 combinent la vision par ordinateur et le traitement du langage naturel. Ils peuvent comprendre des images et répondre à des questions à leur sujet en langage naturel, générer des légendes d'images ou effectuer des tâches telles que la réponse à des questions visuelles. Cette technologie est essentielle pour des applications allant de l'analyse d'images médicales à l'amélioration de l'automatisation des processus robotiques (RPA) en permettant aux robots de "voir" et de "comprendre" leur environnement grâce à des entrées visuelles et textuelles.
  • Conduite autonome : Les voitures à conduite autonome s'appuient fortement sur des modèles multimodaux. Elles intègrent des données provenant de caméras (images et vidéos), de LiDAR (informations sur la profondeur), de radars (distance et vitesse) et de GPS (données de localisation). Cette fusion des données des capteurs permet une perception plus précise et plus fiable de l'environnement, cruciale pour une navigation et une prise de décision sûres dans les applications d'IA de vision telles que les voitures auto-conduites.
  • Analyse des sentiments : Bien que l'analyse des sentiments soit souvent effectuée sur des données textuelles, l'incorporation d'indices audio et visuels peut améliorer la précision, en particulier dans la compréhension des émotions humaines. Par exemple, l'analyse des expressions faciales dans une vidéo parallèlement à des critiques textuelles peut permettre de mieux comprendre le sentiment des clients à l'égard d'un produit ou d'un service.

Concepts clés

Pour comprendre les modèles multimodaux, il faut saisir quelques concepts connexes :

  • Fusion de données : Il s'agit du processus de combinaison de données provenant de plusieurs capteurs ou sources. Dans les modèles multimodaux, les techniques de fusion de données sont utilisées pour intégrer les informations provenant de différentes modalités dans une représentation unifiée à partir de laquelle le modèle peut apprendre.
  • Apprentissage intermodal : Il s'agit de la capacité d'un modèle à transférer les connaissances apprises d'une modalité à une autre. Par exemple, un modèle formé sur des paires d'images et de textes peut être capable de générer des descriptions pour de nouvelles images qu'il n'a jamais vues auparavant, ce qui démontre une compréhension intermodale.
  • Modèles de base : Les modèles de base, comme le GPT-4 d'OpenAI, sont de plus en plus multimodaux. Ces modèles puissants sont formés sur de vastes quantités de données diverses et peuvent être adaptés à un large éventail de tâches à travers différentes modalités, mettant en évidence le potentiel de l'IA multimodale pour parvenir à une intelligence générale artificielle (AGI) plus générale et plus performante.

En exploitant la richesse des données multimodales, les systèmes d'IA deviennent plus intelligents, plus polyvalents et mieux équipés pour résoudre les problèmes complexes du monde réel.

Tout lire