Glossar

Wissensdestillation

Entdecke, wie Knowledge Distillation KI-Modelle komprimiert, um schnellere Schlussfolgerungen zu ziehen, die Genauigkeit zu verbessern und die Effizienz des Einsatzes von Edge-Geräten zu erhöhen.

Knowledge Distillation ist eine Technik des maschinellen Lernens (ML), bei der ein kleineres, kompaktes Modell (der "Student") so trainiert wird, dass es das Verhalten eines größeren, komplexeren Modells (des "Lehrers") nachahmt. Das Hauptziel besteht darin, das vom Lehrermodell gelernte "Wissen" auf das Schülermodell zu übertragen, so dass das Schülermodell eine vergleichbare Leistung erbringen kann, jedoch mit deutlich geringeren Rechenanforderungen, wie z. B. einer geringeren Größe und einer schnelleren Inferenzlatenz. Dadurch werden komplexe Deep Learning-Modelle (DL) für den Einsatz in ressourcenbeschränkten Umgebungen wie mobilen Geräten oder Edge-Computing-Plattformen praktisch. Das Konzept wurde von Geoffrey Hinton und Kollegen in ihrem Artikel"Distilling the Knowledge in a Neural Network" bekannt gemacht.

Wie die Wissensdestillation funktioniert

Das Verfahren umfasst in der Regel ein vorab trainiertes Lehrermodell, bei dem es sich um ein einzelnes leistungsfähiges Modell oder um ein Ensemble von Modellen handeln kann, die für ihre hohe Genauigkeit bekannt sind. Das Schülermodell, das in der Regel weniger Parameter oder eine flachere Architektur hat (z. B. ein kleineres Convolutional Neural Network (CNN)), wird dann anhand der Ergebnisse des Lehrermodells trainiert. Anstatt nur die "hard labels" (die "ground truth") aus den Trainingsdaten zu verwenden, lernt der Schüler/die Schülerin oft von den "soft targets" des Lehrers/der Lehrerin - den vollständigen Wahrscheinlichkeitsverteilungen, die der Lehrer/die Lehrerin für alle Klassen vorhergesagt hat. Diese weichen Ziele enthalten umfassendere Informationen darüber, wie das Lehrermodell verallgemeinert und Ähnlichkeiten zwischen den Klassen darstellt. Eine spezielle Verlustfunktion, oft Destillationsverlust genannt, wird verwendet, um die Differenz zwischen den Vorhersagen des Schülers und den Soft Targets des Lehrers zu minimieren, manchmal in Kombination mit einem Standardverlust, der anhand der tatsächlichen Kennzeichnungen berechnet wird.

Nutzen und Wichtigkeit

Knowledge Distillation bietet mehrere entscheidende Vorteile:

Modellkomprimierung: Erzeugt kleinere Modelle, die weniger Speicherplatz benötigen.
Schnellere Inferenz: Eine geringere Modellkomplexität führt zu schnelleren Vorhersagen, was für Echtzeit-Inferenzanwendungen entscheidend ist.
Energieeffizienz: Kleinere Modelle verbrauchen weniger Strom, was für batteriebetriebene Geräte und nachhaltige KI-Praktiken wichtig ist. Siehe Ultralytics Richtlinien für Umwelt, Gesundheit und Sicherheit.
Einsatz auf Edge-Geräten: Ermöglicht leistungsstarke KI-Funktionen auf Hardware mit begrenztem Speicher und begrenzter Rechenleistung, wie Raspberry Pi oder NVIDIA Jetson.
Mögliche Leistungsverbesserung: Manchmal kann das Schülermodell besser verallgemeinern als ein ähnlich großes Modell, das direkt auf harten Labels trainiert wurde, da es aus dem reichhaltigeren Überwachungssignal des Lehrers lernt.

Anwendungen in der realen Welt

Knowledge Distillation ist in verschiedenen Bereichen weit verbreitet:

Computer Vision: Große Objekterkennungs- oder Bildsegmentierungsmodelle, wie komplexe Versionen von Ultralytics YOLO oder Vision Transformers (ViT), können in leichtgewichtige Versionen umgewandelt werden, die für mobile AppsUltralytics HUB App) oder eingebettete Systeme in autonomen Fahrzeugen oder in der Robotik geeignet sind. Intuitivo nutzt beispielsweise die Wissensdestillation, um Wissen aus großen Grundmodellen in kleinere, kostengünstige Modelle für die Skalierung von Millionen von autonomen Verkaufsstellen zu übertragen, wodurch die Beschriftung erheblich beschleunigt wird (Quelle: YOLO Vision 2023 Talk).
Natürliche Sprachverarbeitung (NLP): Massive Large Language Models (LLMs) wie BERT oder GPT werden oft in kleinere Versionen destilliert (z. B. DistilBERT von Hugging Face) für Aufgaben wie Sentiment-Analyse oder Fragenbeantwortung auf Geräten mit begrenzten Rechenkapazitäten oder für Anwendungen, die eine geringere Latenzzeit erfordern, wie z. B. Chatbots.

Wissensdestillation

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Wie die Wissensdestillation funktioniert

Nutzen und Wichtigkeit

Anwendungen in der realen Welt

Verwandte Konzepte

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Wissensdestillation

Trainiere YOLO Modelle einfachmit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Wie die Wissensdestillation funktioniert

Nutzen und Wichtigkeit

Anwendungen in der realen Welt

Verwandte Konzepte

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Trainiere YOLO Modelle einfach
mit Ultralytics HUB