Modell-Quantisierung

Optimieren Sie die KI-Leistung mit Modellquantisierung. Verringern Sie die Größe, erhöhen Sie die Geschwindigkeit und verbessern Sie die Energieeffizienz bei realen Einsätzen.

Die Modellquantisierung ist eine leistungsstarke Technik zur Modelloptimierung, die den Speicherbedarf und die Rechenkosten eines neuronalen Netzes (NN) verringert, indem seine Gewichte und Aktivierungen von hochpräzisen Fließkommazahlen (wie 32-Bit-Float oder FP32) in Datentypen mit geringerer Genauigkeit, wie 8-Bit-Ganzzahlen (INT8), umgewandelt werden. Durch diesen Prozess werden die Modelle deutlich kleiner und schneller, was ihren Einsatz auf ressourcenbeschränkter Hardware wie Mobiltelefonen und eingebetteten Systemen ermöglicht. Das Hauptziel ist die Verbesserung der Leistung, insbesondere der Latenzzeit, bei minimalen Auswirkungen auf die Vorhersagegenauigkeit des Modells.

So funktioniert die Modellquantisierung

Bei der Quantisierung wird der kontinuierliche Bereich von Fließkommawerten in einem trainierten Modell auf einen kleineren, diskreten Satz von Ganzzahlwerten abgebildet. Diese Umwandlung reduziert die Anzahl der Bits, die für die Speicherung jedes Parameters erforderlich sind, wodurch die Gesamtgröße des Modells verringert wird. Darüber hinaus sind Berechnungen mit weniger präzisen Ganzzahlen auf vielen modernen CPUs und spezialisierten KI-Beschleunigern wie GPUs und TPUs, die über spezielle Befehle für Ganzzahlarithmetik verfügen, viel schneller.

Es gibt zwei Hauptmethoden für die Anwendung der Quantisierung:

Quantisierung nach dem Training (Post-Training Quantization, PTQ): Dies ist der einfachste Ansatz, bei dem ein bereits trainiertes Modell in ein Format mit geringerer Genauigkeit umgewandelt wird. Dabei handelt es sich um einen schnellen Prozess, bei dem die Verteilung der Gewichte und Aktivierungen in einem kleinen Kalibrierungsdatensatz analysiert wird, um die optimale Zuordnung von Float zu Integer zu bestimmen.
Quantisierungsorientiertes Training (QAT): Bei dieser Methode wird das Modell trainiert oder feinabgestimmt, während die Auswirkungen der Quantisierung simuliert werden. Der Vorwärtsdurchlauf des Trainingsprozesses ahmt die quantisierte Inferenz nach, so dass sich das Modell an die reduzierte Präzision anpassen kann. QAT liefert oft eine höhere Genauigkeit als PTQ, da das Modell lernt, den potenziellen Informationsverlust während der Trainingsphase auszugleichen. Frameworks wie PyTorch und TensorFlow bieten robuste Werkzeuge für die Implementierung von QAT.

Anwendungen in der realen Welt

Die Quantisierung ist von entscheidender Bedeutung für die Ausführung anspruchsvoller Computer-Vision-Modelle in realen Szenarien, insbesondere auf Edge AI-Geräten.

On-Device-Bildanalyse: Viele Smartphone-Anwendungen verwenden quantisierte Modelle für Echtzeitfunktionen. Eine App, die zum Beispiel eine Live-Objekterkennung über die Kamera anbietet, wie die Identifizierung von Produkten oder Landmarken, ist auf ein quantisiertes Modell wie Ultralytics YOLO11 angewiesen, um effizient auf der Hardware des Telefons zu laufen, ohne den Akku zu belasten oder eine Cloud-Verbindung zu benötigen.
Automobil und Robotik: In autonomen Fahrzeugen müssen Modelle für die Erkennung von Fußgängern und das Halten der Fahrspur mit extrem geringer Latenz arbeiten. Durch die Quantisierung dieser Modelle können sie auf spezieller Hardware wie NVIDIA Jetson oder Google Coral Edge TPUs ausgeführt werden, wodurch sichergestellt wird, dass Entscheidungen in Bruchteilen von Sekunden getroffen werden, was für die Sicherheit entscheidend ist.

Quantisierung im Vergleich zu anderen Optimierungstechniken

Die Modellquantisierung wird häufig zusammen mit anderen Optimierungsmethoden eingesetzt, unterscheidet sich jedoch in ihrem Ansatz.

Modell-Bereinigung: Bei dieser Technik werden überflüssige oder unwichtige Verbindungen (Gewichte) innerhalb des neuronalen Netzes entfernt, um dessen Größe und Komplexität zu verringern. Während das Pruning das Netz verkleinert, indem es Teile davon entfernt, macht die Quantisierung die verbleibenden Teile effizienter, indem sie ihre numerische Präzision verringert. Für eine maximale Optimierung werden die beiden Verfahren oft kombiniert.
Wissensdestillation: Hierbei wird ein kleineres "Schüler"-Modell trainiert, um ein größeres, vorab trainiertes "Lehrermodell" zu imitieren. Das Ziel ist es, das Wissen des Lehrers auf eine kompaktere Architektur zu übertragen. Dies unterscheidet sich von der Quantisierung, bei der die numerische Darstellung eines bestehenden Modells verändert wird, anstatt ein neues Modell zu trainieren.
Gemischte Präzision: Bei dieser Technik wird während des Modelltrainings eine Kombination verschiedener numerischer Genauigkeiten (z. B. FP16 und FP32) verwendet, um den Prozess zu beschleunigen und den Speicherbedarf zu verringern. Es handelt sich dabei zwar um eine verwandte Technik, aber in erster Linie um eine Trainingsoptimierung, während die Quantisierung in der Regel auf die Optimierung des Modells für die Inferenz ausgerichtet ist.

Überlegungen und Unterstützung

Obwohl die Quantisierung sehr vorteilhaft ist, kann sie die Modellgenauigkeit beeinträchtigen. Es ist wichtig, nach der Quantisierung eine gründliche Bewertung anhand relevanter Leistungskennzahlen vorzunehmen, um sicherzustellen, dass der Kompromiss bei der Leistung akzeptabel ist.

Ultralytics erleichtert den Einsatz von quantisierten Modellen durch Unterstützung des Exports in quantisierungsfreundliche Formate. Dazu gehören ONNX für breite Kompatibilität, OpenVINO für die Optimierung auf Intel-Hardware und TensorRT für hohe Leistung auf NVIDIA-GPUs. Plattformen wie Ultralytics HUB können bei der Verwaltung des gesamten Lebenszyklus helfen, vom Training bis zur Bereitstellung optimierter Modelle. Integrationen mit Tools wie Neural Magic nutzen auch Quantisierung und Pruning, um eine Leistung der GPU-Klasse auf CPUs zu erreichen.

Modell-Quantisierung

Flexible Lizenzierungslösung für Unternehmen zur Förderung Ihrer Innovation

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainieren Sie YOLO-Modelle einfach mit Ultralytics HUB

So funktioniert die Modellquantisierung

Anwendungen in der realen Welt

Quantisierung im Vergleich zu anderen Optimierungstechniken

Überlegungen und Unterstützung

Lesen Sie mehr in dieser Kategorie

Additive Fertigung verstehen: Technologie und Anwendungsfälle

Überwachung des Flughafenbetriebs am Boden mit Ultralytics YOLO11

Die Entwicklung und Zukunft der Robotik in der Fertigung

Werden Sie Mitglied der Ultralytics-Gemeinschaft