Distillazione della conoscenza

Scoprite come la Knowledge Distillation comprime i modelli di intelligenza artificiale per ottenere un'inferenza più rapida, una maggiore precisione e un'efficienza di distribuzione dei dispositivi edge.

La distillazione della conoscenza è una tecnica di ottimizzazione e compressione dei modelli nell'apprendimento automatico (ML), in cui un modello "studente" compatto viene addestrato per riprodurre le prestazioni di un modello "insegnante" più grande e complesso. L'idea di base è quella di trasferire la "conoscenza" dal modello insegnante, potente ma ingombrante, al modello studente, più piccolo ed efficiente. Ciò consente di distribuire modelli altamente accurati in ambienti con risorse limitate, come i dispositivi edge o i telefoni cellulari, senza un calo significativo delle prestazioni. Il processo colma il divario tra i modelli di ricerca massicci e all'avanguardia e la distribuzione pratica dei modelli nel mondo reale.

Come funziona la distillazione della conoscenza

Il modello insegnante, in genere una rete neurale di grandi dimensioni o un insieme di modelli, viene prima addestrato su un ampio set di dati per ottenere un'elevata precisione. Durante il processo di distillazione, il modello studente impara cercando di imitare le uscite del docente. Invece di imparare solo dalle etichette di base nei dati di addestramento, lo studente viene addestrato anche sulle distribuzioni di probabilità complete dell'insegnante per ogni previsione, spesso chiamate "etichette morbide". Queste etichette morbide forniscono informazioni più ricche delle "etichette dure" (le risposte corrette), in quanto rivelano come il modello insegnante "pensa" e generalizza. Per esempio, un modello insegnante potrebbe prevedere che l'immagine di un gatto sia "gatto" con un'affidabilità del 90%, ma anche assegnare piccole probabilità a "cane" (5%) e "volpe" (2%). Queste informazioni sfumate aiutano il modello studente ad apprendere in modo più efficace, spesso portando a una generalizzazione migliore rispetto a quella che avrebbe ottenuto se fosse stato addestrato solo sulle etichette. Questa tecnica è una parte fondamentale del kit di strumenti del deep learning per creare modelli efficienti.

Applicazioni del mondo reale

La distillazione della conoscenza è ampiamente utilizzata in vari settori per rendere accessibile una potente intelligenza artificiale.

Elaborazione del linguaggio naturale (NLP): I modelli linguistici di grandi dimensioni (LLM) come BERT sono incredibilmente potenti, ma troppo grandi per molte applicazioni. DistilBERT è un famoso esempio di versione ridotta di BERT. È più piccolo del 40% e più veloce del 60%, pur mantenendo oltre il 97% delle prestazioni di BERT, il che lo rende adatto a compiti come l'analisi del sentimento e la risposta alle domande sui dispositivi di consumo.
Computer Vision su dispositivi edge: Nella computer vision, un modello di grandi dimensioni e ad alta precisione per la classificazione delle immagini o il rilevamento degli oggetti può essere distillato in un modello più piccolo. Ciò consente di eseguire compiti di visione complessi, come il rilevamento di persone in tempo reale per una telecamera di sicurezza intelligente, direttamente su hardware con potenza di calcolo limitata, come un Raspberry Pi, migliorando la velocità e la privacy dei dati. I modelli YOLO di Ultralytics, come YOLO11, possono far parte di questi flussi di lavoro, in cui le conoscenze dei modelli più grandi possono informare l'addestramento di versioni più piccole e distribuibili.