Entdecke, wie Knowledge Distillation KI-Modelle komprimiert, um schnellere Schlussfolgerungen zu ziehen, die Genauigkeit zu verbessern und die Effizienz des Einsatzes von Edge-Geräten zu erhöhen.
Knowledge Distillation ist eine Technik des maschinellen Lernens (ML), bei der ein kleineres, kompaktes Modell (der "Student") so trainiert wird, dass es das Verhalten eines größeren, komplexeren Modells (des "Lehrers") nachahmt. Das Hauptziel besteht darin, das vom Lehrermodell gelernte "Wissen" auf das Schülermodell zu übertragen, so dass das Schülermodell eine vergleichbare Leistung erbringen kann, jedoch mit deutlich geringeren Rechenanforderungen, wie z. B. einer geringeren Größe und einer schnelleren Inferenzlatenz. Dadurch werden komplexe Deep Learning-Modelle (DL) für den Einsatz in ressourcenbeschränkten Umgebungen wie mobilen Geräten oder Edge-Computing-Plattformen praktisch. Das Konzept wurde von Geoffrey Hinton und Kollegen in ihrem Artikel"Distilling the Knowledge in a Neural Network" bekannt gemacht.
Das Verfahren umfasst in der Regel ein vorab trainiertes Lehrermodell, bei dem es sich um ein einzelnes leistungsfähiges Modell oder um ein Ensemble von Modellen handeln kann, die für ihre hohe Genauigkeit bekannt sind. Das Schülermodell, das in der Regel weniger Parameter oder eine flachere Architektur hat (z. B. ein kleineres Convolutional Neural Network (CNN)), wird dann anhand der Ergebnisse des Lehrermodells trainiert. Anstatt nur die "hard labels" (die "ground truth") aus den Trainingsdaten zu verwenden, lernt der Schüler/die Schülerin oft von den "soft targets" des Lehrers/der Lehrerin - den vollständigen Wahrscheinlichkeitsverteilungen, die der Lehrer/die Lehrerin für alle Klassen vorhergesagt hat. Diese weichen Ziele enthalten umfassendere Informationen darüber, wie das Lehrermodell verallgemeinert und Ähnlichkeiten zwischen den Klassen darstellt. Eine spezielle Verlustfunktion, oft Destillationsverlust genannt, wird verwendet, um die Differenz zwischen den Vorhersagen des Schülers und den Soft Targets des Lehrers zu minimieren, manchmal in Kombination mit einem Standardverlust, der anhand der tatsächlichen Kennzeichnungen berechnet wird.
Knowledge Distillation bietet mehrere entscheidende Vorteile:
Knowledge Distillation ist in verschiedenen Bereichen weit verbreitet:
Knowledge Distillation ist mit anderen Modelloptimierungstechniken verwandt, unterscheidet sich aber von ihnen:
Knowledge Distillation ist ein leistungsfähiges Werkzeug, um modernste KI-Modelle zugänglicher und effizienter zu machen und die Lücke zwischen groß angelegten Forschungsmodellen und dem praktischen Einsatz von Modellen in der realen Welt zu schließen. Plattformen wie Ultralytics HUB erleichtern das Training und den Einsatz von potenziell destillierten Modellen wie YOLOv8 oder YOLO11.