L'apprentissage auto-supervisé (SSL) est une approche d'apprentissage automatique qui permet aux modèles d'apprendre à partir de grandes quantités de données non étiquetées. Contrairement à l'apprentissage supervisé, qui dépend fortement de données méticuleusement étiquetées, l'apprentissage auto-supervisé crée ingénieusement ses propres signaux de supervision directement à partir des données d'entrée. Cela lui confère une valeur exceptionnelle dans des domaines tels que la vision artificielle (CV) et le traitement du langage naturel (NLP), où les données non étiquetées sont abondantes, mais où le coût et l'effort d'étiquetage manuel(annotation des données) peuvent s'avérer prohibitifs.
SSL vs. autres paradigmes d'apprentissage
Il est crucial de différencier le SSL des paradigmes de ML apparentés :
- Apprentissage supervisé : S'appuie entièrement sur des données étiquetées, où chaque entrée est associée à une sortie correcte. SSL, à l'inverse, génère ses étiquettes à partir des données elles-mêmes.
- Apprentissage non supervisé : Vise à trouver des modèles (comme le regroupement) ou à réduire la dimensionnalité dans des données non étiquetées sans tâches prétextes prédéfinies. Bien que l'apprentissage non supervisé utilise des données non étiquetées comme l'apprentissage non supervisé, il en diffère en créant des signaux de supervision explicites par le biais de tâches prétextes pour guider l'apprentissage de la représentation.
- Apprentissage semi-supervisé : Utilise une combinaison d'une petite quantité de données étiquetées et d'une grande quantité de données non étiquetées. Le préapprentissage SSL peut souvent être une étape préliminaire avant l'affinage semi-supervisé.
Applications dans le monde réel
SSL dispose de capacités d'intelligence artificielle (IA) considérablement avancées :
- Faire progresser les modèles de vision par ordinateur : Le pré-entraînement SSL permet à des modèles comme Ultralytics YOLO11 d'apprendre des caractéristiques visuelles robustes à partir d'ensembles massifs d'images non étiquetées avant d'être affinés pour des tâches telles que la détection d'objets dans les véhicules autonomes ou l'analyse d'images médicales. L'utilisation de poids pré-entraînés dérivés de SSL conduit souvent à de meilleures performances et à une convergence plus rapide pendant l'entraînement du modèle.
- Alimenter les grands modèles de langage (LLM) : Les modèles de base tels que GPT-4 et BERT s'appuient fortement sur les tâches de prétexte SSL (comme la modélisation du langage masqué) pendant leur phase de pré-entraînement sur de vastes corpus de textes. Cela leur permet de comprendre la structure de la langue, la grammaire et le contexte, et d'alimenter des applications allant des chatbots sophistiqués à la traduction automatique en passant par le résumé de texte.
SSL réduit considérablement la dépendance à l'égard des ensembles de données étiquetés coûteux, démocratisant ainsi le développement de puissants modèles d'IA. Des outils comme PyTorch et TensorFlowainsi que des plateformes comme Ultralytics HUB, fournissent des environnements permettant d'exploiter les techniques SSL pour construire et déployer des solutions d'IA de pointe.
Comment fonctionne l'apprentissage auto-supervisé ?
Le mécanisme de base de SSL implique la conception d'une "tâche prétexte". Il s'agit d'une tâche auxiliaire auto-générée dans laquelle le modèle doit prédire certaines propriétés des données qui ont été intentionnellement cachées ou modifiées. En résolvant cette tâche prétexte, le modèle est contraint d'apprendre des structures et des représentations sous-jacentes significatives(embeddings) des données sans étiquettes fournies par l'homme. Cette phase de formation initiale est communément appelée préformation.
Par exemple, dans le domaine de la vision par ordinateur, une tâche prétexte peut impliquer :
Dans le domaine du NLP, une tâche de prétexte bien connue est la modélisation du langage masqué, utilisée par des modèles tels que BERT. Ici, le modèle apprend à prédire les mots qui ont été masqués au hasard (cachés) dans les phrases.
Après un préapprentissage sur de grands ensembles de données non étiquetées, le modèle capture de riches représentations de caractéristiques. Ce modèle pré-entraîné peut ensuite être adapté à des tâches spécifiques en aval, telles que la détection d'objets, la classification d'images ou l'analyse de sentiments, par le biais d'unprocessus appelé réglage fin. Le réglage fin nécessite généralement une quantité beaucoup plus faible de données étiquetées par rapport à la formation d'un modèle à partir de zéro, ce qui fait de SSL un outil clé pour un apprentissage par transfert efficace.