Découvre comment l'apprentissage semi-supervisé combine des données étiquetées et non étiquetées pour améliorer les modèles d'IA, réduire les coûts d'étiquetage et augmenter la précision.
L'apprentissage semi-supervisé (SSL) représente un puissant moyen terme dans l'apprentissage automatique (ML), en combinant une petite quantité de données étiquetées avec une grande quantité de données non étiquetées pendant la formation. Cette approche est particulièrement précieuse dans les scénarios où l'acquisition de données étiquetées est coûteuse, prend du temps ou n'est pas pratique, alors que les données non étiquetées sont abondantes. SSL vise à exploiter la structure sous-jacente des données non étiquetées pour améliorer les performances du modèle au-delà de ce qui pourrait être obtenu en utilisant uniquement les données étiquetées limitées, ce qui en fait une technique pratique pour de nombreux problèmes d'intelligence artificielle (IA) dans le monde réel.
L'apprentissage semi-supervisé occupe un espace unique entre les autres types d'apprentissage primaire :
SSL est très efficace dans les domaines où l'étiquetage est un goulot d'étranglement :
Le principal avantage du SSL est sa capacité à réduire la dépendance à l'égard des grands ensembles de données étiquetées, ce qui permet d'économiser le temps et les ressources associés à l'étiquetage des données. Il conduit souvent à une meilleure généralisation du modèle par rapport aux modèles purement supervisés formés sur des données limitées en exploitant les informations provenant d'échantillons non étiquetés. Cependant, le succès de SSL dépend fortement de l'exactitude des hypothèses sous-jacentes concernant les données. Si ces hypothèses ne se vérifient pas (par exemple, si la distribution des données non étiquetées est très différente de celle des données étiquetées), les méthodes SSL peuvent même dégrader les performances. Il est essentiel de sélectionner et de mettre en œuvre avec soin les techniques SSL, ce qui nécessite souvent une expertise en matière de pratiques MLOps.
De nombreux frameworks modernes d'apprentissage profond (DL), notamment . PyTorchPyTorch site officiel dePyTorch ) et TensorFlowTensorFlow official site), offrent des fonctionnalités ou peuvent être adaptés pour mettre en œuvre des algorithmes SSL. Des bibliothèques comme Scikit-learn fournissent certaines méthodes SSL. Des plateformes comme Ultralytics HUB rationalisent le processus en facilitant la gestion des ensembles de donnéesUltralytics documentationUltralytics HUB Datasets) qui peuvent contenir des mélanges de données étiquetées et non étiquetées, en simplifiant la formationUltralytics HUB Cloud Training) et le déploiement(guide des options de déploiement de modèles) des modèles conçus pour exploiter de telles structures de données. La recherche en SSL continue d'évoluer, avec des contributions souvent présentées lors de grandes conférences sur l'IA telles que NeurIPS et ICML.
Comment fonctionne l'apprentissage semi-supervisé
Les algorithmes SSL fonctionnent en faisant certaines hypothèses sur la relation entre les données étiquetées et non étiquetées. Parmi les hypothèses les plus courantes, on peut citer l'"hypothèse de lissage" (les points proches les uns des autres sont susceptibles de partager une étiquette) ou l'"hypothèse de grappe" (les données ont tendance à former des grappes distinctes et les points d'une même grappe sont susceptibles de partager une étiquette). Les techniques impliquent souvent la formation d'un modèle initial sur les données étiquetées, puis son utilisation pour générer des pseudo-étiquettes pour les données non étiquetées sur la base de prédictions très fiables. Le modèle est ensuite ré-entraîné sur les données étiquetées d'origine et sur les nouvelles données pseudo-étiquetées. Une autre approche est la régularisation de la cohérence, où le modèle est encouragé à produire la même sortie pour un exemple non étiqueté même si son entrée est légèrement perturbée, ce qui est souvent obtenu par l'augmentation des données. Ces méthodes permettent au modèle d'apprendre à partir des modèles et de la distribution inhérente au grand nombre d'échantillons non étiquetés. Des techniques plus avancées sont explorées dans des ressources telles que les articles du blogGoogle AI sur SSL.