Glossaire

Modèle multimodal

Découvre comment les modèles d'IA multimodale intègrent du texte, des images et bien plus encore pour créer des systèmes robustes et polyvalents pour les applications du monde réel.

Les modèles multimodaux représentent une avancée significative dans le domaine de l'intelligence artificielle (IA) en traitant et en intégrant des informations provenant de plusieurs types de sources de données, appelées modalités. Contrairement aux modèles traditionnels qui peuvent se concentrer uniquement sur les images ou le texte, les systèmes multimodaux combinent des entrées comme le texte, les images, l'audio, la vidéo et les données des capteurs pour parvenir à une compréhension plus holistique et plus humaine des scénarios complexes. Cette intégration leur permet de saisir les relations complexes et le contexte que les modèles à modalité unique pourraient manquer, ce qui conduit à des applications d'IA plus robustes et plus polyvalentes, explorées plus en détail dans des ressources telles que le BlogUltralytics .

Définition

Un modèle multimodal est un système d'IA conçu et formé pour traiter, comprendre et relier simultanément des informations provenant de deux ou plusieurs modalités de données distinctes. Les modalités courantes comprennent les données visuelles (images, vidéo), auditives (parole, sons), textuelles(traitement du langage naturel - NLP) et d'autres données de capteurs (comme le LiDAR ou les relevés de température). L'idée centrale est la fusion d'informations - combiner les forces de différents types de données pour parvenir à une compréhension plus approfondie. Par exemple, pour bien comprendre une vidéo, il faut traiter les images visuelles, les dialogues parlés (audio) et éventuellement les légendes ou sous-titres. En apprenant les corrélations et les dépendances entre ces modalités pendant le processus de formation de l'apprentissage automatique (ML), souvent en utilisant des techniques d'apprentissage profond (DL), ces modèles développent une compréhension plus riche et plus nuancée que ce qui est possible en analysant chaque modalité de manière isolée.

Pertinence et applications

L'importance des modèles multimodaux s'accroît rapidement car les informations du monde réel sont intrinsèquement multiformes. Les humains perçoivent naturellement le monde à l'aide de plusieurs sens ; doter l'IA de capacités similaires permet de créer des applications plus sophistiquées et plus sensibles au contexte. Ces modèles sont cruciaux lorsque la compréhension dépend de l'intégration de divers flux de données, ce qui permet d'améliorer la précision des tâches complexes.

Voici quelques exemples concrets de leur application :

Modèles de langage visuel (VLM) pour la compréhension des images: Des modèles comme PaliGemma 2 deGoogle, Florence-2 deMicrosoft et CLIP d'OpenAI combinent des données d'image et de texte. Ils peuvent effectuer des tâches telles que le sous-titrage d'images (générer des descriptions textuelles pour les images) ou le Visual Question Answering (VQA) (répondre à des questions en langage naturel basées sur le contenu d'une image).
Systèmes de conduite autonome: Des entreprises comme Waymo développent des véhicules qui s'appuient fortement sur des entrées multimodales. Ils fusionnent des données provenant de caméras (visuelles), de LiDAR (profondeur et forme), de radars (distance et vitesse) et parfois de capteurs audio pour percevoir l'environnement, prédire les mouvements des objets et naviguer en toute sécurité. Cela nécessite le traitement de divers flux de données pour une inférence en temps réel.
Analyse améliorée des sentiments: L'analyse des sentiments peut être plus précise en combinant le texte avec des indices audio (ton de la voix) et visuels (expressions faciales). La recherche explore l'analyse multimodale des sentiments pour des applications dans l'analyse des commentaires des clients ou l'interaction homme-machine.
Analyse d'images médicales: La combinaison des scans médicaux (comme les radiographies ou les IRM) avec les dossiers médicaux électroniques (texte) peut conduire à des diagnostics plus précis. En savoir plus sur les progrès de l'IA et de la radiologie.

Concepts clés et distinctions

Pour comprendre les modèles multimodaux, il faut se familiariser avec des concepts connexes :

Apprentissage multimodal: Il s'agit du sous-domaine de l'apprentissage multimodal axé sur le développement des algorithmes et des techniques utilisés pour former des modèles multimodaux. Il aborde des défis tels que l'alignement des données et les stratégies de fusion, souvent discutés dans les articles académiques.
Modèles de fondation: De nombreux modèles de fondation modernes, tels que le GPT-4, sont intrinsèquement multimodaux, capables de traiter à la fois du texte et des images. Ces grands modèles servent de base qui peut être affinée pour des tâches spécifiques.
Les grands modèles de langage (LLM): Bien qu'ils soient apparentés, les LLM se concentrent traditionnellement sur le traitement du texte. Les modèles multimodaux sont plus larges, explicitement conçus pour traiter et intégrer des informations provenant de différents types de données au-delà du simple langage. Certains LLM avancés ont cependant développé des capacités multimodales.
Modèles de vision spécialisés : Les modèles multimodaux diffèrent des modèles spécialisés de vision par ordinateur (VA) tels que Ultralytics YOLO. Alors qu'un modèle multimodal comme GPT-4 peut décrire une image ("Il y a un chat assis sur un tapis"), un modèle YOLO excelle dans la détection d'objets ou la segmentation d'instances, localisant précisément le chat à l'aide d'une boîte englobante ou d'un masque de pixels. Ces modèles peuvent être complémentaires ; YOLO identifie où se trouvent les objets, tandis qu'un modèle multimodal peut interpréter la scène ou répondre à des questions à son sujet. Jette un coup d'œil aux comparaisons entre les différents modèles YOLO .
Architecture du transformateur: L'architecture du transformateur, présentée dans "L'attention est tout ce dont tu as besoin", est fondamentale pour de nombreux modèles multimodaux réussis, car elle permet de traiter et d'intégrer efficacement différentes séquences de données grâce à des mécanismes d'attention.

Le développement et le déploiement de ces modèles font souvent appel à des frameworks tels que PyTorch et TensorFlowLes plateformes comme Ultralytics HUB peuvent aider à gérer les ensembles de données et les flux de travail de formation des modèles, bien que HUB se concentre actuellement davantage sur les tâches spécifiques à la vision. La capacité à faire le lien entre différents types de données fait des modèles multimodaux une étape vers une IA plus complète, contribuant potentiellement à la future intelligence générale artificielle (AGI).

Modèle multimodal

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Définition

Pertinence et applications

Concepts clés et distinctions

Lire plus de blogs

Rejoins la communauté Ultralytics

Modèle multimodal

Entraîne les modèles YOLO simplementavec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Définition

Pertinence et applications

Concepts clés et distinctions

Lire plus de blogs

Rejoins la communauté Ultralytics

Entraîne les modèles YOLO simplement
avec Ultralytics HUB