Découvre comment la distillation des connaissances compresse les modèles d'IA pour une inférence plus rapide, une précision améliorée et une efficacité de déploiement des appareils de périphérie.
La distillation des connaissances est une technique de compression de modèles utilisée dans l'apprentissage automatique pour transférer les connaissances d'un grand modèle complexe (le "professeur") à un modèle plus petit et plus simple (l'"élève"). L'objectif est de former le modèle de l'élève pour qu'il atteigne des performances comparables à celles du modèle de l'enseignant, même si l'élève a moins de paramètres et est moins coûteux sur le plan informatique. Cette méthode est particulièrement utile pour déployer des modèles sur des appareils aux ressources limitées ou dans des applications nécessitant des temps d'inférence rapides.
L'idée centrale de la distillation des connaissances est d'utiliser les sorties douces (probabilités) du modèle de l'enseignant comme cibles d'entraînement pour le modèle de l'élève, en plus ou à la place des étiquettes dures (vérité de terrain). Les modèles de l'enseignant, souvent pré-entraînés sur de vastes ensembles de données, peuvent capturer des relations complexes dans les données et bien les généraliser. En apprenant à partir de ces cibles souples, le modèle de l'élève peut apprendre des informations plus riches qu'il ne le ferait en apprenant uniquement à partir des étiquettes dures. Ce processus implique souvent l'utilisation d'une "température" plus élevée dans la fonction softmax pendant l'inférence de l'enseignant pour adoucir la distribution de probabilité, fournissant ainsi des informations plus nuancées à l'élève.
La distillation des connaissances offre plusieurs avantages, ce qui en fait une technique précieuse dans diverses applications de l'IA :
Les applications réelles de la distillation des connaissances sont très répandues :
Bien que la distillation des connaissances soit une technique de compression de modèle, elle est différente d'autres méthodes telles que l'élagage et la quantification de modèle. L'élagage des modèles réduit la taille d'un modèle en supprimant les connexions (poids) les moins importantes, tandis que la quantification des modèles réduit la précision des poids du modèle afin d'utiliser moins de mémoire et de calculs. La distillation des connaissances, quant à elle, forme un nouveau modèle plus petit à partir de zéro en utilisant les connaissances d'un modèle plus grand. Ces techniques peuvent également être combinées ; par exemple, un modèle distillé peut être encore élagué ou quantifié pour obtenir une compression et une efficacité encore plus grandes. Des outils tels que Model Compression Toolkit (MCT) de Sony et OpenVINO peuvent être utilisés pour optimiser les modèles après la distillation en vue d'un déploiement en périphérie.