L'apprentissage à partir de zéro (Zero-Shot Learning, ZSL) est un domaine fascinant de l'apprentissage automatique (Machine Learning, ML) dans lequel un modèle est entraîné à reconnaître des objets ou des concepts qu'il n'a jamais explicitement vus au cours de la formation. Contrairement aux méthodes traditionnelles d'apprentissage supervisé qui nécessitent de nombreux exemples étiquetés pour chaque catégorie possible, le ZSL permet aux modèles de faire des prédictions sur des classes non vues en exploitant des informations auxiliaires qui décrivent ces nouvelles classes. Cette capacité est cruciale pour construire des systèmes d'intelligence artificielle (IA) plus adaptables et évolutifs, en particulier dans les domaines où l'obtention de données étiquetées pour chaque catégorie imaginable est peu pratique ou impossible.
Principales différences par rapport à des concepts similaires
Il est important de distinguer le ZSL des paradigmes d'apprentissage apparentés :
- Apprentissage à partir d'un petit nombre d'exemples (FSL) : Le FSL vise à apprendre de nouveaux concepts à partir d'un très petit nombre d'exemples étiquetés (par exemple, 1 à 5) par classe, alors que le ZSL nécessite zéro exemple étiqueté pour les classes cibles. En savoir plus sur la compréhension de Few-Shot, Zero-Shot et Transfer Learning.
- Apprentissage en une seule fois (One-Shot Learning, OSL): Un cas spécifique de FLS où exactement un exemple étiqueté est fourni pour chaque nouvelle classe.
- Apprentissage par transfert: Un concept plus large dans lequel les connaissances acquises au cours d'une tâche sont appliquées à une tâche différente mais connexe. Le ZSL est une forme d'apprentissage par transfert, mais il se concentre spécifiquement sur le transfert de connaissances (souvent par le biais d'attributs sémantiques) pour reconnaître des classes complètement inédites. Des modèles comme Ultralytics YOLOv8 utilisent souvent l'apprentissage par transfert à partir de grands ensembles de données comme COCO pour une formation personnalisée.
- Apprentissage auto-supervisé (SSL): Les modèles SSL apprennent des représentations à partir de données non étiquetées en créant des tâches prétextes (par exemple, prédire les parties masquées d'une entrée). Bien qu'utile pour le préapprentissage, l'apprentissage autonome ne gère pas intrinsèquement les classes non identifiées sans mécanismes supplémentaires tels que ceux utilisés dans ZSL.
Applications dans le monde réel
ZSL a un potentiel important dans différents domaines :
- Computer Vision (CV) - Reconnaissance d'objets à grain fin : Identification d'espèces rares d'animaux, de plantes ou de modèles de produits spécifiques dans des images où les données d'entraînement sont rares. Par exemple, un système formé sur les oiseaux communs pourrait identifier une espèce rare sur la base d'une description textuelle de son plumage, de la forme de son bec et de son habitat, même sans exemples visuels préalables. Cela permet d'étendre les capacités au-delà de la détection d'objets standard ou de la classification d'images formées uniquement sur des classes vues. Des modèles comme YOLO s'appuient sur des idées similaires pour la détection de vocabulaire ouvert.
- Traitement du langage naturel (NLP ) - Identification des sujets et reconnaissance des intentions : Classer des documents, des courriels ou des requêtes d'utilisateurs en fonction de sujets ou d'intentions nouveaux, émergents et non présents dans l'ensemble de données de formation initial. Par exemple, un chatbot d' assistance à la clientèle pourrait classer une requête concernant une fonctionnalité de produit nouvellement lancée en utilisant la description de la fonctionnalité, sans avoir besoin d'exemples de formation explicites de ce type de requêtes. Cela permet de tirer parti de la puissance des grands modèles de langage (LLM) tels que GPT-4.
Défis et orientations futures
Malgré ses promesses, le ZSL est confronté à des défis tels que le problème du hubness (où certains points de l'espace sémantique deviennent les voisins les plus proches de nombreux points) et le changement de domaine (où la relation entre les caractéristiques et les attributs diffère entre les classes vues et non vues). La recherche continue d'explorer des encastrements sémantiques plus robustes, de meilleures fonctions de mise en correspondance et des techniques telles que l'apprentissage généralisé à partir de zéro (GZSL), qui vise à reconnaître les classes vues et non vues au cours de l'inférence. Le développement de plateformes comme Ultralytics HUB pourrait faciliter l'intégration et le déploiement des capacités ZSL dans des applications pratiques d'IA de vision. D'autres avancées pourraient s'inspirer de modèles multimodaux qui lient intrinsèquement la vision et le langage.
Comment fonctionne l'apprentissage Zero-Shot
L'idée centrale de ZSL est de combler le fossé entre les classes vues et non vues à l'aide d'un espace sémantique partagé. Cet espace repose souvent sur des descriptions de haut niveau, des attributs ou des enchâssements dérivés de textes ou de bases de connaissances. Au cours de la formation, le modèle apprend à établir une correspondance entre les données d'entrée (comme des images ou du texte) et cet espace sémantique, en utilisant uniquement des exemples des classes "vues". Par exemple, un modèle peut apprendre à associer des images de chevaux et de tigres (classes vues) à leurs attributs correspondants (par exemple, "a des sabots", "a des rayures", "est un mammifère").
Lorsqu'on lui présente une instance d'une classe inédite (par exemple, un zèbre), le modèle extrait ses caractéristiques et les inscrit dans l'espace sémantique appris. Il compare ensuite ce mappage aux descriptions sémantiques des classes non vues (par exemple, les attributs "a des rayures", "a des sabots", "est un mammifère" décrivant un zèbre). La classe dont la description sémantique est la plus proche dans cet espace est choisie comme prédiction. Ce processus fait souvent appel à des techniques d'apprentissage profond (DL), utilisant des architectures telles que les réseaux neuronaux convolutifs (CNN) pour l'extraction des caractéristiques et les fonctions de mappage pour relier les caractéristiques visuelles aux attributs sémantiques, en s'appuyant parfois sur des concepts issus des transformateurs de vision (ViT) ou des modèles tels que CLIP.