Scopri come la Distillazione della Conoscenza comprime i modelli di intelligenza artificiale per velocizzare l'inferenza, migliorare l'accuratezza e rendere più efficiente l'implementazione dei dispositivi edge.
La distillazione della conoscenza è una tecnica di apprendimento automatico (ML) in cui un modello più piccolo e compatto (lo "studente") viene addestrato per imitare il comportamento di un modello più grande e complesso (il "maestro"). L'obiettivo principale è quello di trasferire la "conoscenza" appresa dal modello insegnante al modello studente, consentendo a quest'ultimo di ottenere prestazioni comparabili ma con requisiti computazionali significativamente inferiori, come dimensioni ridotte e latenza di inferenza più rapida. Questo rende i modelli complessi di deep learning (DL) pratici per l'implementazione in ambienti con risorse limitate come i dispositivi mobili o le piattaforme di edge computing. Il concetto è stato reso popolare da Geoffrey Hinton e colleghi nel loro articolo"Distilling the Knowledge in a Neural Network".
Il processo prevede in genere un modello insegnante pre-addestrato, che può essere un singolo modello potente o un insieme di modelli noti per l'elevata precisione. Il modello studente, solitamente con un numero inferiore di parametri o con un'architettura più superficiale (ad esempio, una rete neurale convoluzionale (CNN) più piccola), viene poi addestrato utilizzando le uscite del modello insegnante come guida. Invece di utilizzare solo le etichette dure (la verità di base) dei dati di addestramento, lo studente spesso impara dagli "obiettivi morbidi" dell'insegnante, ovvero le distribuzioni di probabilità complete previste dall'insegnante per tutte le classi. Questi obiettivi morbidi contengono informazioni più ricche su come il modello dell'insegnante generalizza e rappresenta le somiglianze tra le classi. Una speciale funzione di perdita, spesso chiamata perdita di distillazione, viene utilizzata per minimizzare la differenza tra le previsioni dello studente e gli obiettivi morbidi dell'insegnante, a volte combinata con una perdita standard calcolata utilizzando le etichette reali.
La Distillazione della Conoscenza offre diversi vantaggi chiave:
La distillazione della conoscenza è ampiamente utilizzata in diversi ambiti:
La Distillazione della Conoscenza è correlata ma distinta da altre tecniche di ottimizzazione dei modelli:
La distillazione della conoscenza è un potente strumento per rendere più accessibili ed efficienti i modelli di AI all'avanguardia, colmando il divario tra i modelli di ricerca su larga scala e l'implementazione pratica dei modelli nel mondo reale. Piattaforme come Ultralytics HUB facilitano l'addestramento e l'implementazione di modelli potenzialmente distillati come YOLOv8 o YOLO11.