Découvre comment la distillation des connaissances optimise l'IA en compressant les modèles pour une performance plus rapide et efficace sur les appareils périphériques et les applications du monde réel.
La distillation des connaissances est une technique d'apprentissage automatique qui se concentre sur le transfert des connaissances d'un grand modèle complexe (souvent appelé "enseignant") vers un modèle plus petit et plus simple (appelé "élève"). Cette approche permet au modèle de l'élève d'atteindre des performances comparables à celles de l'enseignant tout en étant plus efficace en termes de ressources informatiques, ce qui le rend idéal pour un déploiement dans des environnements à ressources limitées tels que les appareils mobiles, les appareils IoT ou les systèmes informatiques de périphérie.
Le processus de distillation des connaissances consiste à former le modèle de l'élève à reproduire le comportement du modèle de l'enseignant. Plutôt que de s'appuyer uniquement sur les données étiquetées d'origine, l'élève apprend à partir des "étiquettes douces" ou des sorties probabilistes de l'enseignant, qui contiennent des informations plus riches sur les relations entre les différentes classes. Ces connaissances supplémentaires permettent à l'élève de mieux généraliser, même avec moins de paramètres.
Par exemple, dans une tâche de classification d'images, le modèle de l'enseignant peut produire des probabilités telles que 90 % pour "chat", 8 % pour "chien" et 2 % pour "lapin". Ces probabilités souples fournissent des indications sur les similitudes entre les classes, que le modèle de l'élève utilise pour affiner ses prédictions.
La distillation des connaissances a trouvé une utilisation répandue dans divers domaines de l'intelligence artificielle et de l'apprentissage automatique :
Dans le domaine de l'imagerie médicale, les grands modèles formés pour détecter les anomalies dans les radiographies ou les IRM peuvent être distillés en modèles plus petits pour des diagnostics plus rapides et en temps réel. Par exemple, Ultralytics YOLO connus pour leur efficacité dans la détection d'objets, peuvent bénéficier d'une distillation pour améliorer leur vitesse et leur capacité de déploiement dans les appareils de soins de santé. En savoir plus sur l'IA dans le domaine de la santé.
Les véhicules autonomes s'appuient sur des modèles de détection et de classification d'objets pour prendre des décisions en temps réel. Les modèles distillés sont ici cruciaux, car ils réduisent le temps d'inférence tout en maintenant la précision. Explore comment l 'IA dans la conduite autonome transforme la sécurité et l'efficacité des transports.
Dans le domaine du NLP, les grands modèles basés sur les transformateurs comme BERT sont distillés en versions plus petites, comme DistilBERT, pour permettre des tâches plus rapides de classification de texte, de traduction et de réponse aux questions sur les appareils périphériques. En savoir plus sur les transformateurs et le NLP.
Dans des secteurs comme la vente au détail et la fabrication, la distillation des connaissances est utilisée pour déployer des modèles légers pour des tâches telles que la gestion des stocks et la détection des défauts. Par exemple, Ultralytics les modèles de vision par ordinateur optimisés par la distillation peuvent améliorer l'efficacité de la fabrication pilotée par l'IA.
Alors que la distillation des connaissances et l'élagage des modèles se concentrent tous deux sur l'optimisation des modèles, l'élagage réduit la complexité des modèles en supprimant les paramètres les moins significatifs, tandis que la distillation consiste à former un modèle distinct et plus petit pour imiter le comportement d'un modèle plus grand.
La quantification du modèle réduit la précision des paramètres du modèle (par exemple, en convertissant les nombres à virgule flottante de 32 bits en entiers de 8 bits), tandis que la distillation maintient la précision mais transfère les connaissances vers une architecture plus petite.
Grâce à la distillation des connaissances, un grand modèle YOLO peut entraîner une version plus petite pour détecter des objets dans des flux vidéo avec une grande précision et un temps de latence réduit. Ceci est particulièrement utile pour des applications telles que la surveillance de sécurité, où le traitement en temps réel est essentiel. En savoir plus sur les capacités d'inférence en temps réel deYOLO.
Dans l'agriculture de précision, les grands modèles d'IA formés sur des ensembles de données complexes peuvent être distillés en versions compactes pour être déployés sur des drones ou des capteurs de terrain, ce qui permet d'effectuer des tâches comme la détection des ravageurs ou le suivi de la santé des cultures. Découvre comment l 'IA transforme l'agriculture.
Plusieurs cadres prennent en charge la distillation des connaissances, ce qui la rend accessible aux praticiens de l'apprentissage automatique :
La distillation des connaissances continue de jouer un rôle central dans l'avancement des systèmes d'IA, en permettant de créer des modèles à la fois puissants et efficaces pour les applications du monde réel. En comblant le fossé entre précision et efficacité, elle permet à l'IA d'atteindre davantage d'appareils, d'industries et d'utilisateurs à l'échelle mondiale.