Erfahren Sie, wie Wissensdestillation Intelligenz von großen Lehrern auf kompakte Schüler überträgt. Optimieren Sie Ultralytics für eine schnelle und effiziente Edge-Bereitstellung.
Wissensdestillation ist eine ausgefeilte Technik im maschinellen Lernen, bei der ein kompaktes neuronales Netzwerk, das als „Schüler” bezeichnet wird, darauf trainiert wird, das Verhalten und die Leistung eines größeren, komplexeren Netzwerks, das als „Lehrer” bezeichnet wird, zu reproduzieren. Das Hauptziel dieses Prozesses ist die Modelloptimierung, die es Entwicklern ermöglicht, die Vorhersagefähigkeiten schwergewichtiger Architekturen in leichtgewichtige Modelle zu übertragen, die für den Einsatz auf ressourcenbeschränkter Hardware geeignet sind. Durch die Erfassung der reichhaltigen Informationen, die in den Vorhersagen des Lehrers kodiert sind, erzielt das Schülermodell oft eine deutlich höhere Genauigkeit, als wenn es ausschließlich auf den Rohdaten trainiert worden wäre, wodurch die Lücke zwischen hoher Leistung und Effizienz effektiv geschlossen wird.
Beim traditionellen überwachten Lernen werden Modelle mit „Hard Labels” aus den Trainingsdaten trainiert, wobei ein Bild eindeutig kategorisiert wird (z. B. 100 % „Hund” und 0 % „Katze”). Ein vortrainiertes Lehrer-Modell erzeugt jedoch eine Ausgabe über eine Softmax-Funktion, die allen Klassen Wahrscheinlichkeiten zuweist . Diese Wahrscheinlichkeitsverteilungen werden als „Soft-Labels” oder „Dark Knowledge” bezeichnet.
Wenn beispielsweise ein Lehrer-Modell ein Bild eines Wolfes analysiert, könnte es 90 % Wolf, 9 % Hund und 1 % Katze vorhersagen. Diese Verteilung zeigt, dass der Wolf visuelle Merkmale mit einem Hund teilt, ein Kontext, den ein Hard Label ignoriert. Während des Destillationsprozesses minimiert der Schüler eine Verlustfunktion, wie beispielsweise die Kullback-Leibler-Divergenz, um seine Vorhersagen an den weichen Labels des Lehrers auszurichten. Diese Methode, die durch die Forschung von Geoffrey Hinton bekannt wurde, hilft dem Schüler, besser zu verallgemeinern und reduziert das Überanpassen bei kleineren Datensätzen.
Die Wissensdestillation ist von zentraler Bedeutung in Branchen, in denen Rechenressourcen knapp sind, aber eine hohe Leistung unverzichtbar ist.
Es ist wichtig, die Wissensdestillation von anderen Kompressionsstrategien zu unterscheiden, da diese Modelle auf grundlegend andere Weise verändern.
In einem praktischen Arbeitsablauf wählen Sie zunächst eine leichtgewichtige Architektur aus, die als Schüler fungiert. Die Ultralytics kann verwendet werden, um Datensätze zu verwalten und track Trainingsversuche dieser effizienten Modelle track . Nachfolgend finden Sie ein Beispiel für die Initialisierung eines kompakten YOLO26-Modells, das sich ideal für den Einsatz am Rand und als Schülernetzwerk eignet:
from ultralytics import YOLO
# Load a lightweight YOLO26 nano model (acts as the student)
# The 'n' suffix denotes the nano version, optimized for speed
student_model = YOLO("yolo26n.pt")
# Train the model on a dataset
# In a custom distillation loop, the loss would be influenced by a teacher model
results = student_model.train(data="coco8.yaml", epochs=5, imgsz=640)