Glossaire

Apprentissage multimodal

Découvre la puissance de l'apprentissage multimodal dans l'IA ! Explore comment les modèles intègrent divers types de données pour une résolution plus riche des problèmes du monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage multimodal est un sous-domaine de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML) axé sur la conception et la formation de modèles capables de traiter et d'intégrer des informations provenant de plusieurs types de données distincts, appelés modalités. Les modalités courantes comprennent le texte, les images(vision par ordinateur (VA)), l'audio(reconnaissance vocale), la vidéo et les données de capteurs (comme le LiDAR ou les relevés de température). L'objectif principal de l'apprentissage multimodal est de construire des systèmes d'IA capables d'une compréhension plus holistique, semblable à celle des humains, de scénarios complexes en exploitant les informations complémentaires présentes dans différentes sources de données.

Définition et concepts de base

L'apprentissage multimodal consiste à former des algorithmes pour comprendre les relations et les corrélations entre différents types de données. Au lieu d'analyser chaque modalité de manière isolée, le processus d'apprentissage se concentre sur les techniques permettant de combiner ou de fusionner les informations de manière efficace. Les concepts clés comprennent :

  • Fusion d'informations : Il s'agit des méthodes utilisées pour combiner les informations provenant de différentes modalités. La fusion peut avoir lieu à différents stades : précoce (combinaison des données brutes), intermédiaire (combinaison des caractéristiques extraites de chaque modalité) ou tardif (combinaison des résultats de modèles distincts formés sur chaque modalité). Une fusion efficace des informations est cruciale pour tirer parti des atouts de chaque type de données.
  • Apprentissage intermodal : Il s'agit d'apprendre des représentations où les informations d'une modalité peuvent être utilisées pour déduire ou récupérer des informations d'une autre modalité (par exemple, générer des légendes de texte à partir d'images).
  • Alignement des données : Veiller à ce que les éléments d'information correspondants entre différentes modalités soient correctement mis en correspondance (par exemple, aligner les mots parlés dans une piste audio avec les images visuelles correspondantes dans une vidéo). Un alignement correct des données est souvent une condition préalable à une fusion efficace.

L'apprentissage multimodal s'appuie fortement sur des techniques issues de l'apprentissage profond (DL), en utilisant des architectures comme les transformateurs et les réseaux neuronaux convolutifs (CNN) adaptés pour traiter des entrées diverses, souvent à l'aide de frameworks tels que. PyTorchPyTorch site officiel dePyTorch ) ou TensorFlowTensorFlow ).

Pertinence et applications

La pertinence de l'apprentissage multimodal tient à sa capacité à créer des systèmes d'IA plus robustes et plus polyvalents, capables de s'attaquer à des problèmes complexes du monde réel où l'information est intrinsèquement multiforme. Aujourd'hui, de nombreux modèles d'IA avancés, y compris les grands modèles de fondation, exploitent les capacités multimodales.

Voici quelques exemples concrets de l'application de l'apprentissage multimodal :

Parmi les autres applications importantes, on peut citer la conduite autonome(IA dans les voitures auto-conduites), où les données des caméras, du LiDAR et des radars sont combinées par des entreprises comme Waymo, l'analyse d'images médicales combinant les données d'imagerie avec les dossiers des patients, et les applications de l'IA en robotique, où les robots intègrent des informations visuelles, auditives et tactiles pour interagir avec leur environnement(Robotics).

Distinctions clés

Il est utile de distinguer l'apprentissage multimodal des termes apparentés :

  • Modèles multimodaux: L'apprentissage multimodal est le processus ou le domaine d'étude qui concerne la formation de l'intelligence artificielle à l'aide de plusieurs types de données. Les modèles multimodaux sont les systèmes ou architectures d'intelligence artificielle conçus et formés à l'aide de ces techniques.
  • Vision par ordinateur (VA): CV se concentre exclusivement sur le traitement et la compréhension des données visuelles (images, vidéos). L'apprentissage multimodal va plus loin que la vision artificielle en intégrant des données visuelles à d'autres modalités comme le texte ou l'audio.
  • Traitement du langage naturel (NLP): Le NLP traite de la compréhension et de la génération du langage humain (texte, parole). L'apprentissage multimodal intègre les données linguistiques à d'autres modalités telles que les images ou les relevés de capteurs.
  • Modèles de base: Il s'agit de modèles à grande échelle pré-entraînés sur de grandes quantités de données, souvent conçus pour être adaptables à diverses tâches en aval. De nombreux modèles de base modernes, comme le GPT-4, intègrent des capacités multimodales, mais les concepts sont distincts ; l'apprentissage multimodal est une méthodologie souvent employée dans la construction de ces puissants modèles.

Défis et orientations futures

L'apprentissage multimodal présente des défis uniques, notamment l'alignement efficace des données provenant de différentes sources, le développement de stratégies de fusion optimales et le traitement des données manquantes ou bruitées dans une ou plusieurs modalités. Relever ces défis dans le cadre de l'apprentissage multimodal reste un domaine de recherche actif.

Le domaine évolue rapidement, repoussant les limites vers des systèmes d'IA qui perçoivent et raisonnent sur le monde davantage comme le font les humains, contribuant potentiellement au développement de l'intelligence générale artificielle (AGI). Alors que des plateformes comme Ultralytics HUB facilitent actuellement les flux de travail principalement axés sur les tâches de vision par ordinateur à l'aide de modèles tels qu' Ultralytics YOLO (par ex, Ultralytics YOLOv8) pour la détection d'objets, le paysage plus large de l'IA pointe vers une intégration croissante des capacités multimodales. Garde un œil sur le blogue d'Ultralytics pour des mises à jour sur les nouvelles capacités et applications du modèle. Pour un aperçu plus large du domaine, la page Wikipédia sur l'apprentissage multimodal propose d'autres lectures.

Tout lire