Glossar

Quantisierungsorientiertes Training (QAT)

Optimiere KI-Modelle für Edge-Geräte mit Quantization-Aware Training (QAT), um hohe Genauigkeit und Effizienz in ressourcenbeschränkten Umgebungen zu gewährleisten.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Quantization-Aware Training (QAT) ist eine wichtige Optimierungstechnik beim maschinellen Lernen, die die Lücke zwischen hochpräzisen KI-Modellen und ihrem effizienten Einsatz auf ressourcenbeschränkten Geräten schließt. Mit der Ausweitung von KI-Anwendungen auf Edge-Geräte wie Smartphones, IoT-Sensoren und eingebettete Systeme werden Modelle, die sowohl genau als auch recheneffizient sind, dringend benötigt. QAT geht diese Herausforderung an, indem es die Auswirkungen der Quantisierung während der Trainingsphase des Modells simuliert, was zu robusten Modellen führt, die für Hardware mit geringer Genauigkeit optimiert sind.

So funktioniert quantisierungsorientiertes Training

Mit Quantization-Aware Training werden neuronale Netze so verfeinert, dass sie die geringere numerische Genauigkeit in Einsatzumgebungen tolerieren. Im Gegensatz zur Quantisierung nach dem Training, die angewendet wird, nachdem ein Modell vollständig trainiert wurde, integriert QAT die Quantisierung in die Trainingsschleife selbst. Dies wird erreicht, indem der Quantisierungsprozess - also die Verringerung der numerischen Genauigkeit der Gewichte und Aktivierungen - während des Vorwärts- und Rückwärtslaufs simuliert wird. Auf diese Weise lernt das Modell, den Präzisionsverlust auszugleichen. Das Ergebnis ist ein Modell, das eine höhere Genauigkeit beibehält, wenn es für den Einsatz tatsächlich quantisiert wird. Bei dieser Methode werden Operationen zur "Scheinquantisierung" verwendet, die arithmetische Verfahren mit geringer Genauigkeit, wie z. B. int8, imitieren, während Gradientenberechnungen und Gewichtsaktualisierungen weiterhin mit voller Genauigkeit durchgeführt werden. Mit diesem Ansatz kann sich das Modell anpassen und reagiert weniger empfindlich auf Quantisierungseffekte, was zu einer besseren Leistung bei quantisierten Schlussfolgerungen führt.

Für ein umfassenderes Verständnis der Optimierungstechniken siehe den Leitfaden zur Modelloptimierung, der einen schnellen Überblick über die Methoden zur Verbesserung der Modelleffizienz bietet.

Abgrenzung zu verwandten Konzepten

QAT vs. Modellquantisierung

Obwohl sowohl QAT als auch Modellquantisierung darauf abzielen, die Modellgenauigkeit zu verringern, unterscheiden sich ihre Ansätze und Ergebnisse erheblich. Die Modellquantisierung ist in der Regel ein Prozess nach dem Training, bei dem ein trainiertes Modell mit voller Genauigkeit in ein Format mit geringerer Genauigkeit (z. B. INT8) umgewandelt wird, um die Modellgröße zu verringern und die Inferenz zu beschleunigen. Diese Methode ist einfach, kann aber manchmal zu einem erheblichen Rückgang der Genauigkeit führen, insbesondere bei komplexen Modellen. Im Gegensatz dazu bereitet QAT das Modell während des Trainings proaktiv auf die Quantisierung vor, wodurch der Genauigkeitsverlust gemildert und in Umgebungen mit geringer Genauigkeit oft eine bessere Leistung erzielt wird.

QAT vs. Gemischte Präzision

Das Training mit gemischter Genauigkeit ist eine weitere Optimierungstechnik, die darauf abzielt, den Trainingsprozess zu beschleunigen und den Speicherbedarf beim Training zu reduzieren. Dabei werden sowohl 16-Bit- als auch 32-Bit-Gleitkommazahlen im Netz verwendet. Während das Mixed-Precision-Training in erster Linie auf die Trainingseffizienz abzielt, wurde QAT speziell entwickelt, um die Leistung der Modelle nach der Quantisierung zu verbessern, wobei der Schwerpunkt auf der Inferenz-Effizienz und -Genauigkeit in Einsatzszenarien mit geringer Präzision liegt.

Anwendungen von QAT in der realen Welt

Quantisierungssensitives Training ist wichtig für den Einsatz von KI-Modellen in realen Anwendungen, bei denen Ressourceneffizienz entscheidend ist. Hier sind ein paar Beispiele:

Beispiel 1: Edge AI in intelligenten Geräten

In intelligenten Geräten wie Smartphones und IoT-Geräten sind die Rechenressourcen und die Leistung begrenzt. QAT wird häufig eingesetzt, um Modelle für Edge-KI-Anwendungen zu optimieren und die Echtzeitverarbeitung direkt auf dem Gerät zu ermöglichen. Ultralytics YOLO , ein hochmodernes Objekterkennungsmodell, kann beispielsweise mit QAT optimiert werden, um eine effiziente Objekterkennung in Echtzeit in Anwendungen wie intelligenten Haussicherheitssystemen oder KI-gesteuerten Kameras zu gewährleisten. Durch die Reduzierung der Modellgröße und des Rechenaufwands ermöglicht QAT die Ausführung komplexer KI-Aufgaben auf Geräten mit begrenzten Rechenkapazitäten.

Beispiel 2: Autonome Fahrzeuge und Robotik

Autonome Fahrzeuge und Robotik erfordern KI-Systeme, die unter strengen Latenz- und Energiebeschränkungen schnelle Entscheidungen treffen können. QAT spielt eine wichtige Rolle bei der Optimierung von Modellen für den Einsatz in eingebetteten Systemen innerhalb dieser Anwendungen. Zum Beispiel kann die Anwendung von QAT auf Ultralytics YOLOv8 Modelle die Effizienz von Systemen zur Fahrzeugerkennung und Fußgängerverfolgung erheblich verbessern, die für die Echtzeit-Entscheidungsfindung beim autonomen Fahren entscheidend sind. Diese Optimierung stellt sicher, dass die KI im Rahmen der Leistungs- und Rechenbeschränkungen der Fahrzeughardware effektiv arbeiten kann.

Um zu erfahren, wie Ultralytics Lösungen in verschiedenen Branchen eingesetzt werden, besuche Ultralytics Lösungen.

Alles lesen