Glossar

Wissensdestillation

Entdecke, wie Knowledge Distillation KI-Modelle komprimiert, um schnellere Schlussfolgerungen zu ziehen, die Genauigkeit zu verbessern und die Effizienz des Einsatzes von Edge-Geräten zu erhöhen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Knowledge Distillation ist eine Modellkomprimierungstechnik, die beim maschinellen Lernen eingesetzt wird, um Wissen von einem großen, komplexen Modell (dem "Lehrer") auf ein kleineres, einfacheres Modell (den "Schüler") zu übertragen. Das Ziel ist es, das Schülermodell so zu trainieren, dass es eine vergleichbare Leistung wie das Lehrermodell erzielt, obwohl es weniger Parameter hat und rechnerisch weniger aufwändig ist. Dies ist besonders nützlich für den Einsatz von Modellen auf Geräten mit eingeschränkten Ressourcen oder für Anwendungen, die schnelle Schlussfolgerungen erfordern.

Wie die Wissensdestillation funktioniert

Die Kernidee hinter Knowledge Distillation ist es, die Soft-Outputs (Wahrscheinlichkeiten) des Lehrermodells als Trainingsziele für das Schülermodell zu verwenden, zusätzlich zu oder anstelle der Hard-Labels (Ground Truth). Lehrermodelle, die oft mit großen Datensätzen trainiert wurden, können komplizierte Beziehungen in den Daten erfassen und gut verallgemeinern. Durch das Lernen anhand dieser weichen Ziele kann das Schülermodell mehr Informationen lernen, als wenn es nur von den harten Bezeichnungen lernen würde. Bei diesem Prozess wird oft eine höhere "Temperatur" in der Softmax-Funktion verwendet, um die Wahrscheinlichkeitsverteilung aufzuweichen und den Schüler/innen differenziertere Informationen zu liefern.

Vorteile und Anwendungen

Knowledge Distillation bietet mehrere Vorteile, die sie zu einer wertvollen Technik für verschiedene KI-Anwendungen machen:

  • Modellkomprimierung: Sie ermöglicht die Erstellung kleinerer, effizienterer Modelle, die sich für den Einsatz auf Endgeräten mit begrenzten Rechenressourcen eignen, z. B. auf Mobiltelefonen oder eingebetteten Systemen. Dies ist wichtig für Anwendungen wie die Objekterkennung in Echtzeit auf Geräten wie dem Raspberry Pi oder NVIDIA Jetson.
  • Verbesserte Generalisierung: Schülermodelle, die mit Knowledge Distillation trainiert wurden, zeigen oft eine bessere Generalisierungsleistung als Modelle, die nur auf Basis von Hard Labels trainiert wurden. Sie können von den gelernten Repräsentationen des Lehrers lernen, was zu einer besseren Genauigkeit und Robustheit führt.
  • Schnellere Inferenz: Kleinere Modelle führen natürlich zu schnelleren Inferenzen, was für Echtzeitanwendungen wie autonomes Fahren, robotergestützte Prozessautomatisierung (RPA) und Sicherheitssysteme unerlässlich ist.

Die Anwendung von Knowledge Distillation in der realen Welt ist weit verbreitet:

  • Verarbeitung natürlicher Sprache (NLP): Im Bereich NLP kann Knowledge Distillation verwendet werden, um große Sprachmodelle wie GPT-3 oder BERT in kleinere, effizientere Modelle für den mobilen oder Edge-Einsatz zu komprimieren. Ein destilliertes Modell kann z. B. die Sentiment-Analyse auf mobilen Geräten unterstützen, ohne dass eine Cloud-Anbindung erforderlich ist.
  • Computer Vision: Ultralytics YOLOv8 oder ähnliche Modelle zur Objekterkennung können für den Einsatz in Echtzeitanwendungen auf Edge Devices destilliert werden. In intelligenten Städten können destillierte Modelle zum Beispiel für eine effiziente Verkehrsüberwachung und -verwaltung verwendet werden, indem sie direkt auf Edge-Computing-Geräten an Verkehrsknotenpunkten laufen. Eine weitere Anwendung ist die medizinische Bildanalyse, bei der destillierte Modelle eine schnellere vorläufige Diagnose am Ort der Behandlung ermöglichen.

Wissensdestillation vs. Modellbereinigung und Quantisierung

Knowledge Distillation ist zwar eine Technik zur Modellkomprimierung, aber sie unterscheidet sich von anderen Methoden wie Model Pruning und Model Quantization. Beim Model Pruning wird die Größe eines Modells reduziert, indem weniger wichtige Verbindungen (Gewichte) entfernt werden, während bei der Modellquantisierung die Genauigkeit der Modellgewichte reduziert wird, um weniger Speicher und Rechenleistung zu benötigen. Knowledge Distillation hingegen trainiert ein neues, kleineres Modell von Grund auf mit dem Wissen eines größeren Modells. Diese Techniken können auch miteinander kombiniert werden, z. B. kann ein destilliertes Modell weiter beschnitten oder quantisiert werden, um eine noch höhere Kompression und Effizienz zu erreichen. Tools wie das Model Compression Toolkit (MCT) von Sony und OpenVINO können verwendet werden, um Modelle nach der Destillation für den Einsatz am Rand weiter zu optimieren.

Alles lesen