Glossaire

Apprentissage semi-supervisé

Découvre comment l'apprentissage semi-supervisé combine des données étiquetées et non étiquetées pour améliorer les modèles d'IA, réduire les coûts d'étiquetage et augmenter la précision.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage semi-supervisé (SSL) est un type de technique d'apprentissage automatique qui se situe entre l'apprentissage supervisé et l'apprentissage non supervisé. Il utilise une combinaison d'une petite quantité de données étiquetées et d'une grande quantité de données non étiquetées pour former des modèles. La motivation première de l'apprentissage non supervisé est le coût élevé et les efforts souvent associés à l'étiquetage des données, en particulier dans les domaines complexes. En tirant parti des données non étiquetées facilement disponibles, SSL vise à améliorer les performances du modèle et la généralisation au-delà de ce qui pourrait être obtenu en utilisant uniquement les données étiquetées limitées.

Comment fonctionne l'apprentissage semi-supervisé

Le principe fondamental de l'apprentissage semi-supervisé est que les données non étiquetées, malgré l'absence d'étiquettes explicites, contiennent des informations précieuses sur la structure et la distribution sous-jacentes des données. Les algorithmes SSL tentent d'exploiter cette structure pour améliorer le processus d'apprentissage. Les approches courantes impliquent souvent de faire des hypothèses sur les données, telles que l'"hypothèse de grappe" (les points d'une même grappe sont susceptibles d'avoir la même étiquette) ou l'"hypothèse de manifold" (les points de données se trouvent sur un manifold de dimension inférieure).

Les techniques utilisées par SSL comprennent des méthodes telles que le pseudo-étiquetage, où un modèle formé sur les données initiales étiquetées est utilisé pour prédire les étiquettes des données non étiquetées. Les prédictions très fiables sont alors traitées comme des "pseudo-étiquettes" et ajoutées à l'ensemble de formation. Une autre approche implique la régularisation de la cohérence, qui encourage le modèle à produire des résultats similaires pour des versions perturbées de la même entrée non étiquetée, souvent obtenue grâce à des techniques telles que l'augmentation des données. Ces méthodes aident le modèle à apprendre des caractéristiques plus robustes en utilisant le vaste ensemble de données non étiquetées. Tu peux trouver un bon aperçu de SSL sur Towards Data Science.

Applications et exemples

L'apprentissage semi-supervisé est particulièrement utile dans les scénarios où l'obtention de données étiquetées est un goulot d'étranglement. Voici quelques domaines d'application clés :

  • Classification d'images: Formation d'un modèle pour classer les images (par exemple, à l'aide d'ensembles de données comme CIFAR-10) où seule une petite fraction des images est étiquetée manuellement, mais où des millions d'images non étiquetées sont disponibles sur le Web.
  • Analyse d'images médicales: Améliorer les modèles de diagnostic en s'entraînant sur quelques scans médicaux annotés par des experts à côté d'un plus grand nombre de scans non annotés. Cela permet d'améliorer des tâches telles que la détection des tumeurs.
  • Classification des pages Web : Catégorisation des pages Web à l'aide d'un petit ensemble de pages classées manuellement et d'un grand nombre de pages non classées extraites d'Internet. Voir un premier exemple de recherche sur la classification des contenus Web.
  • Reconnaissance de la parole: Construire des systèmes utilisant une quantité limitée de données audio transcrites combinées à de grands volumes de paroles non transcrites.
  • Traitement du langage naturel (NLP): Améliorer les tâches telles que l'analyse des sentiments ou la classification des textes en exploitant de grands corpus de textes non étiquetés parallèlement à de plus petits ensembles de données étiquetées.

Distinctions par rapport aux concepts apparentés

Il est important de différencier l'apprentissage semi-supervisé des paradigmes de ML apparentés :

  • Apprentissage supervisé: S'appuie entièrement sur des données entièrement étiquetées pour la formation. SSL utilise à la fois des données étiquetées et non étiquetées.
  • Apprentissage non supervisé: Utilise uniquement des données non étiquetées, généralement pour des tâches telles que le regroupement ou la réduction de la dimensionnalité, sans prédire d'étiquettes prédéfinies. L'apprentissage non supervisé utilise des données non étiquetées pour améliorer une tâche supervisée.
  • Apprentissage auto-supervisé: Utilise également des données non étiquetées, mais il génère des signaux de supervision à partir des données elles-mêmes (par exemple, prédire un mot masqué, coloriser une image). Il est souvent utilisé pour le pré-entraînement de modèles qui sont ensuite affinés sur des données étiquetées, alors que l'apprentissage autonome supervisé incorpore généralement les deux types de données au cours de la phase principale d'entraînement.

Avantages de l'apprentissage semi-supervisé

  • Coût d'étiquetage réduit : réduit considérablement le besoin d'annotation manuelle des données, coûteuse et chronophage.
  • Précision améliorée : Peut conduire à une plus grande précision du modèle par rapport à la formation uniquement sur de petits ensembles de données étiquetées en tirant parti des informations des données non étiquetées.
  • Généralisation améliorée : Les modèles formés avec SSL se généralisent souvent mieux à de nouvelles données inédites en apprenant les structures de données sous-jacentes.
  • Exploite les données abondantes : Utilise efficacement les vastes quantités de données non étiquetées disponibles dans de nombreuses applications du monde réel.

L'apprentissage semi-supervisé offre une approche pratique et puissante pour construire des systèmes d'intelligence artificielle (IA) efficaces, en particulier dans les tâches de vision artificielle comme la détection d'objets où les images ou les vidéos non étiquetées sont nombreuses. Des plateformes comme Ultralytics HUB facilitent la gestion des ensembles de données qui peuvent inclure des mélanges de données étiquetées et non étiquetées pour des modèles d'entraînement tels que les modèles d'apprentissage semi-supervisé. Ultralytics YOLO. L'exploration des techniques SSL peut être cruciale pour les projets confrontés à des limitations dans la disponibilité des données étiquetées, comme le soulignent des ressources telles que les articles duGoogle AI Blog sur SSL.

Tout lire