Glossaire

Distillation des connaissances

Découvre comment la distillation des connaissances compresse les modèles d'IA pour une inférence plus rapide, une précision améliorée et une efficacité de déploiement des appareils de périphérie.

La distillation des connaissances est une technique d'apprentissage machine (ML) dans laquelle un modèle plus petit et compact (l'"élève") est formé pour imiter le comportement d'un modèle plus grand et plus complexe (l'"enseignant"). L'objectif principal est de transférer les "connaissances" apprises par le modèle de l'enseignant au modèle de l'élève, ce qui permet à ce dernier d'atteindre des performances comparables, mais avec des exigences de calcul nettement plus faibles, comme une taille réduite et une latence d'inférence plus rapide. Cela rend les modèles complexes d'apprentissage profond (DL) pratiques pour le déploiement dans des environnements à ressources limitées, comme les appareils mobiles ou les plateformes d'informatique périphérique. Le concept a été popularisé par Geoffrey Hinton et ses collègues dans leur article"Distiller les connaissances dans un réseau neuronal".

Comment fonctionne la distillation des connaissances

Le processus implique généralement un modèle enseignant pré-entraîné, qui peut être un modèle unique puissant ou un ensemble de modèles connus pour leur grande précision. Le modèle de l'élève, généralement doté de moins de paramètres ou d'une architecture moins profonde (par exemple, un réseau neuronal convolutif (CNN) plus petit), est ensuite formé en utilisant les sorties du modèle de l'enseignant comme guide. Au lieu d'utiliser uniquement les étiquettes dures (la vérité de terrain) des données de formation, l'élève apprend souvent à partir des "cibles douces" de l'enseignant - les distributions de probabilité complètes prédites par l'enseignant pour toutes les classes. Ces cibles souples contiennent des informations plus riches sur la façon dont le modèle de l'enseignant se généralise et représente les similitudes entre les classes. Une fonction de perte spéciale, souvent appelée perte par distillation, est utilisée pour minimiser la différence entre les prédictions de l'élève et les cibles molles de l'enseignant, parfois combinée à une perte standard calculée à l'aide des étiquettes réelles.

Avantages et importance

La distillation des connaissances offre plusieurs avantages clés :

Compression des modèles : Crée des modèles plus petits qui nécessitent moins d'espace de stockage.
Inférence plus rapide : La réduction de la complexité du modèle permet d'obtenir des prédictions plus rapides, ce qui est crucial pour les applications d'inférence en temps réel.
Efficacité énergétique : Les modèles plus petits consomment moins d'énergie, ce qui est important pour les appareils alimentés par batterie et les pratiques d'IA durables. Voir les directives d'Ultralytics en matière de santé et de sécurité environnementales.
Déploiement sur des appareils périphériques : Permet de disposer de puissantes capacités d'IA sur du matériel dont la mémoire et la puissance de traitement sont limitées, comme le Raspberry Pi ou le NVIDIA Jetson.
Amélioration potentielle des performances : Parfois, le modèle de l'élève peut mieux se généraliser qu'un modèle de taille similaire formé directement sur des étiquettes dures, car il apprend du signal de supervision plus riche fourni par l'enseignant.

Applications dans le monde réel

La distillation des connaissances est largement utilisée dans divers domaines :

Vision par ordinateur : Les modèles de détection d'objets ou de segmentation d'images de grande taille, comme les versions complexes de Ultralytics YOLO ou Vision Transformers (ViT), peuvent être distillés en versions légères adaptées aux applications mobilesUltralytics HUB App) ou aux systèmes embarqués dans les véhicules autonomes ou la robotique. Par exemple, Intuitivo utilise la distillation des connaissances pour transférer les connaissances des grands modèles de fondation vers des modèles plus petits et rentables pour la mise à l'échelle de millions de points d'achat autonomes, ce qui accélère considérablement l'annotation (Source : YOLO Vision 2023 Talk).
Traitement du langage naturel (NLP) : Les grands modèles de langage massifs (LLM) tels que BERT ou GPT sont souvent distillés en versions plus petites (par exemple, DistilBERT par Hugging Face) pour des tâches telles que l'analyse des sentiments ou la réponse aux questions sur des appareils aux budgets informatiques limités ou pour des applications nécessitant une latence plus faible, telles que les chatbots.

Concepts apparentés

La distillation des connaissances est liée mais distincte des autres techniques d'optimisation des modèles :

Élagage du modèle: Consiste à supprimer les poids ou les connexions les moins importants d'un réseau déjà formé afin d'en réduire la taille. La distillation permet de former un nouveau réseau plus petit.
Quantification du modèle: Réduit la précision numérique des poids du modèle (par exemple, de 32 bits flottants à 8 bits entiers) pour diminuer la taille et accélérer le calcul, souvent utilisé parallèlement ou après la distillation. Voir les intégrations comme ONNX ou TensorRT.
Apprentissage par transfert: Réutilise des parties d'un modèle pré-entraîné (généralement la colonne vertébrale) et l'affine sur un nouvel ensemble de données ou une nouvelle tâche. La distillation se concentre sur le transfert du comportement prédictif d'un enseignant à une architecture d'élève potentiellement différente.
Apprentissage fédéré: Entraîne les modèles à travers des appareils décentralisés sans partager les données brutes, en se concentrant sur la confidentialité. La distillation se concentre sur la compression des modèles.

La distillation des connaissances est un outil puissant qui permet de rendre les modèles d'IA de pointe plus accessibles et plus efficaces, en comblant le fossé entre les modèles de recherche à grande échelle et le déploiement de modèles pratiques dans le monde réel. Des plateformes comme Ultralytics HUB facilitent la formation et le déploiement de modèles potentiellement distillés tels que. YOLOv8 ou YOLO11.

Distillation des connaissances

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Comment fonctionne la distillation des connaissances

Avantages et importance

Applications dans le monde réel

Concepts apparentés

Lire plus de blogs

Rejoins la communauté Ultralytics

Distillation des connaissances

Entraîne les modèles YOLO simplementavec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Comment fonctionne la distillation des connaissances

Avantages et importance

Applications dans le monde réel

Concepts apparentés

Lire plus de blogs

Rejoins la communauté Ultralytics

Entraîne les modèles YOLO simplement
avec Ultralytics HUB