Glossaire

CLIP (Pré-entraînement Contrastif Langue-Image)

Découvre comment le CLIP d'OpenAI révolutionne l'IA grâce à l'apprentissage zéro-coup, à l'alignement image-texte et à des applications réelles en vision par ordinateur.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

CLIP (Contrastive Language-Image Pre-training) est un réseau neuronal développé par OpenAI qui apprend des concepts visuels à partir d'une supervision en langage naturel. Contrairement aux modèles traditionnels de vision par ordinateur qui sont formés sur des ensembles fixes de catégories prédéterminées, CLIP peut comprendre et catégoriser des images sur la base d'un large éventail de descriptions textuelles. Pour ce faire, le modèle est entraîné sur un ensemble massif de paires image-texte extraites d'Internet, ce qui lui permet d'apprendre un espace de représentation partagé où les images et leurs descriptions textuelles correspondantes sont étroitement alignées. Cette approche innovante permet à CLIP d'effectuer un "apprentissage zéro", ce qui signifie qu'il peut classer avec précision des images dans des catégories qu'il n'a jamais vues explicitement pendant la formation, simplement en comprenant la description textuelle de ces catégories.

Comment fonctionne CLIP

L'architecture de CLIP se compose de deux éléments principaux : un encodeur d'images et un encodeur de texte. Le codeur d'images, généralement un transformateur de vision (ViT) ou un réseau résiduel (ResNet), traite les images et extrait leurs caractéristiques visuelles. Le codeur de texte, souvent un modèle de transformateur similaire à ceux utilisés dans le traitement du langage naturel (NLP), traite les descriptions textuelles correspondantes et en extrait les caractéristiques sémantiques. Au cours de l'apprentissage, CLIP se voit présenter un lot de paires image-texte. L'objectif du modèle est de maximiser la similarité entre les représentations codées des images et leurs descriptions textuelles correctes, tout en minimisant la similarité entre les images et les descriptions textuelles incorrectes. Cet objectif est atteint grâce à une fonction de perte contrastive, qui encourage le modèle à apprendre un espace d'intégration partagé dans lequel les images et les textes apparentés sont proches les uns des autres, et les images et les textes non apparentés sont éloignés les uns des autres.

Principales caractéristiques et avantages

L'un des avantages les plus significatifs de CLIP est sa capacité à effectuer un apprentissage à partir de zéro. Parce qu'il apprend à associer des images à un large éventail de concepts textuels, il peut se généraliser à de nouvelles catégories qui n'ont pas été vues pendant la formation. Par exemple, si CLIP a été formé sur des images de chats et de chiens avec leurs étiquettes respectives, il peut potentiellement classer une image d'un "chat portant un chapeau" même s'il n'a jamais vu une image explicitement étiquetée comme telle. Cette capacité rend CLIP très adaptable et polyvalent pour diverses tâches de vision par ordinateur (VA). De plus, les performances de CLIP dépassent souvent celles des modèles supervisés formés sur des ensembles de données spécifiques, en particulier lorsque ces ensembles de données sont limités en taille ou en diversité. En effet, CLIP exploite une grande quantité de données de préformation provenant d'Internet, ce qui lui permet de mieux comprendre les concepts visuels.

Applications dans le monde réel

Les capacités uniques de CLIP ont conduit à son adoption dans diverses applications du monde réel. En voici deux exemples notables :

  1. Recherche et récupération d'images: CLIP peut être utilisé pour construire de puissants moteurs de recherche d'images qui comprennent les requêtes en langage naturel. Par exemple, un utilisateur peut chercher "une photo d'un coucher de soleil sur l'océan" et le système, alimenté par CLIP, peut retrouver des images pertinentes même si ces images ne sont pas explicitement étiquetées avec ces mots-clés. Pour ce faire, le texte de la requête et les images de la base de données sont encodés dans l'espace d'intégration partagé et les images dont l'intégration est la plus proche de l'intégration de la requête sont trouvées.
  2. Modération et filtrage du contenu: CLIP peut être utilisé pour détecter et filtrer automatiquement les contenus inappropriés ou nuisibles en ligne. En comprenant la relation sémantique entre les images et le texte, CLIP peut identifier les images associées à des discours haineux, à la violence ou à d'autres contenus indésirables, même si les images elles-mêmes ne contiennent pas de marqueurs visuels explicites. Cette capacité est précieuse pour les plateformes de médias sociaux, les marchés en ligne et les autres plateformes qui traitent des contenus générés par les utilisateurs.

CLIP et autres modèles

Bien que CLIP partage certaines similitudes avec d'autres modèles multimodaux, il se distingue par l'importance qu'il accorde à l'apprentissage contrastif et aux capacités de prise de vue zéro. Les modèles tels que les systèmes de réponse aux questions visuelles (VQA) traitent également les images et le texte, mais ils sont généralement formés pour répondre à des questions spécifiques sur une image plutôt que d'apprendre un espace de représentation partagé à usage général. De même, si les modèles tels que les systèmes de légendes d'images génèrent des descriptions textuelles pour les images, ils s'appuient souvent sur une formation supervisée sur des ensembles de données d'images et de légendes appariées et peuvent ne pas se généraliser aussi bien aux concepts non vus que le fait CLIP. La capacité de CLIP à comprendre un large éventail de concepts visuels à partir de descriptions en langage naturel, sans formation explicite sur ces concepts, en fait un outil puissant pour diverses applications dans le domaine de l'IA et de l'apprentissage automatique. Tu peux en savoir plus sur les modèles de langage visuel apparentés sur le blog Ultralytics .

Limites et orientations futures

Malgré ses capacités impressionnantes, CLIP n'est pas sans limites. L'un des défis est sa dépendance à l'égard de la qualité et de la diversité des données de pré-entraînement. Les biais présents dans les données peuvent se refléter dans les représentations apprises par le modèle, ce qui peut conduire à des prédictions injustes ou inexactes. Les chercheurs travaillent activement sur des méthodes permettant d'atténuer ces biais et d'améliorer l'équité des modèles tels que CLIP. Un autre domaine de recherche en cours est l'amélioration de la capacité de CLIP à comprendre les détails visuels fins et les concepts de composition complexes. Bien que le CLIP excelle à saisir les concepts visuels généraux, il peut avoir des difficultés avec les tâches qui nécessitent un raisonnement spatial précis ou la compréhension des relations complexes entre les objets. Les progrès futurs dans l'architecture des modèles, les techniques de formation et la conservation des données devraient permettre de remédier à ces limites et d'améliorer encore les capacités des modèles comme CLIP. Par exemple, l'intégration de CLIP à des modèles tels que Ultralytics YOLO pourrait conduire à des systèmes plus robustes et plus polyvalents pour diverses applications dans le monde réel. Tu peux rester au courant des dernières nouveautés en matière d'IA en explorant le blogUltralytics .

Tout lire