Glossar

Modell Quantisierung

Optimiere die KI-Leistung mit Modellquantisierung. Verringere die Größe, erhöhe die Geschwindigkeit und verbessere die Energieeffizienz für reale Einsätze.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Modellquantisierung ist eine wichtige Optimierungstechnik, die beim maschinellen Lernen eingesetzt wird, um die Rechen- und Speicherkosten beim Einsatz von KI-Modellen zu senken. Dabei werden die Gewichte und Aktivierungen eines neuronalen Netzes von hochpräzisen Fließkommazahlen (z. B. 32-Bit-Fließkommazahlen) in weniger präzise Formate wie 8-Bit-Ganzzahlen umgewandelt. Dieser Prozess verringert die Modellgröße erheblich und beschleunigt die Inferenzgeschwindigkeit, was ihn ideal für den Einsatz auf Geräten mit begrenzten Ressourcen macht.

Die Modellquantisierung verstehen

Die Kernidee hinter der Modellquantisierung ist es, die numerischen Werte in einem Modell mit weniger Bits darzustellen. Die meisten Deep Learning-Modelle werden mit Fließkommazahlen trainiert und arbeiten mit diesen, die zwar eine hohe Genauigkeit bieten, aber viel Rechenleistung und Speicherplatz benötigen. Die Quantisierung verringert diesen Bedarf, indem sie den kontinuierlichen Bereich der Fließkommazahlen auf eine kleinere Menge diskreter Ganzzahlwerte abbildet. Dies ist vergleichbar mit der Verringerung der Farbpalette eines Bildes: Zwar gehen einige Details verloren, aber die wesentlichen Informationen bleiben erhalten, und die Dateigröße wird deutlich geringer.

Es gibt verschiedene Techniken zur Quantisierung von Modellen. Die Post-Training-Quantisierung wird angewendet, nachdem ein Modell vollständig trainiert wurde. Dabei werden die Gewichte und Aktivierungen des Modells ohne weiteres Training in eine niedrigere Genauigkeit umgewandelt. Das ist eine einfache Methode, die aber manchmal zu einem leichten Rückgang der Genauigkeit führen kann. Beim quantisierungsorientierten Training (QAT) hingegen wird der Quantisierungsprozess in die Trainingsphase selbst integriert. Dadurch kann das Modell lernen und sich an die geringeren Genauigkeitsanforderungen anpassen, was oft zu einer besseren Genauigkeit führt als die Quantisierung nach dem Training. Techniken wie das Training mit gemischter Genauigkeit können ebenfalls eingesetzt werden, um Genauigkeit und Effizienz während des Trainingsprozesses auszugleichen.

Vorteile der Modellquantisierung

Die Modellquantisierung bietet mehrere entscheidende Vorteile, insbesondere für den Einsatz von KI-Modellen in realen Anwendungen:

  • Geringere Modellgröße: Durch die Quantisierung wird die Größe der Modelldatei drastisch reduziert. Wenn du zum Beispiel ein Modell von 32-Bit-Fließkommazahlen in 8-Bit-Ganzzahlen umwandelst, kann die Größe des Modells bis zu viermal kleiner werden. Dies ist besonders vorteilhaft für den Einsatz von Modellen auf Geräten mit begrenztem Speicherplatz, wie z. B. Mobiltelefonen oder Edge Devices.
  • Schnellere Inferenzgeschwindigkeit: Berechnungen mit geringerer Genauigkeit sind deutlich schneller, insbesondere auf Hardware, die für Ganzzahlarithmetik optimiert ist. Dies führt zu einer geringeren Inferenzlatenz und einer verbesserten Echtzeitleistung, die für Anwendungen wie die Objekterkennung in Echtzeit mit Ultralytics YOLO Modellen entscheidend ist.
  • Geringere Rechenkosten: Die Durchführung von Berechnungen mit geringerer Genauigkeit erfordert weniger Rechenleistung und Energie. Das ist wichtig für batteriebetriebene Geräte und reduziert die für KI-Anwendungen benötigten Rechenressourcen.
  • Gesteigerte Energieeffizienz: Geringere Rechenanforderungen bedeuten einen geringeren Energieverbrauch, wodurch quantisierte Modelle energieeffizienter sind. Dies ist besonders wichtig für mobile und eingebettete Systeme.

Anwendungen in der realen Welt

Die Modellquantisierung ist für den Einsatz von KI-Modellen in einer Vielzahl von Anwendungen unverzichtbar, vor allem wenn die Ressourcen begrenzt sind oder die Geschwindigkeit entscheidend ist. Hier sind ein paar Beispiele:

  1. Mobile Geräte: Smartphones nutzen oft quantisierte Modelle für KI-Funktionen auf dem Gerät, wie Bilderkennung und natürliche Sprachverarbeitung. Durch Quantisierung können diese komplexen Modelle effizient auf mobilen Grafikprozessoren oder spezieller Hardware wie Edge TPUs in Geräten wie dem Raspberry Pi ausgeführt werden, ohne die Akkulaufzeit zu beeinträchtigen oder Leistungsprobleme zu verursachen. Die Ausführung eines Ultralytics YOLO Modells auf einer Android oder iOS App profitiert zum Beispiel stark von der Quantisierung für die Objekterkennung in Echtzeit.
  2. Edge Computing und IoT-Geräte: In Szenarien wie Smart Cities oder Industrieautomatisierung werden KI-Modelle auf zahlreichen Edge-Geräten zur Echtzeit-Datenverarbeitung eingesetzt. Die Quantisierung ist hier von entscheidender Bedeutung, damit die Modelle auf diesen Geräten, deren Rechenleistung und Speicherplatz oft begrenzt sind, effizient eingesetzt werden können. Nehmen wir eine intelligente Kamera, die Ultralytics YOLO für Sicherheitsalarmsysteme verwendet; die Quantisierung sorgt für eine rechtzeitige Erkennung und Reaktion und minimiert gleichzeitig die Hardwareanforderungen.

Quantisierung vs. Model Pruning

Sowohl die Modellquantisierung als auch das Modellpruning sind Modelloptimierungstechniken, die darauf abzielen, die Modellgröße zu reduzieren und die Effizienz zu verbessern. Die Quantisierung verringert die Genauigkeit der numerischen Darstellungen, während das Pruning die Anzahl der Parameter in einem Modell reduziert, indem weniger wichtige Verbindungen oder Neuronen entfernt werden. Beide Techniken können unabhängig voneinander oder in Kombination eingesetzt werden, um eine optimale Leistung und Größe des Modells zu erreichen. Tools wie TensorRT und OpenVINO enthalten oft Quantisierung und Pruning als Teil ihrer Optimierungspipelines.

Zusammenfassend lässt sich sagen, dass die Modellquantisierung eine leistungsstarke Technik ist, die KI zugänglicher und für eine größere Bandbreite von Geräten und Anwendungen einsetzbar macht, indem sie die Effizienz ohne nennenswerte Einbußen bei der Genauigkeit verbessert.

Alles lesen