Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Modellquantisierung

Erfahren Sie, wie die Modellquantisierung Ultralytics für Edge-KI optimiert. Entdecken Sie, wie Sie den Speicherbedarf reduzieren, die Latenz verringern und INT8-Modelle für eine schnellere Inferenz exportieren können.

Die Modellquantisierung ist eine ausgefeilte Technik zur Modelloptimierung, mit der die Rechen- und Speicherkosten für die Ausführung von Deep-Learning-Modellen reduziert werden. In Standard-Trainingsworkflows speichern neuronale Netze in der Regel Parameter (weights and biases) und Aktivierungskarten unter Verwendung von 32-Bit-Gleitkommazahlen (FP32). Diese hohe Präzision gewährleistet zwar genaue Berechnungen während des Trainings, ist jedoch für die Inferenz oft unnötig. Durch die Quantisierung werden diese Werte in Formate mit geringerer Genauigkeit umgewandelt, z. B. 16-Bit-Gleitkommazahlen (FP16) oder 8-Bit-Ganzzahlen (INT8), wodurch die Modellgröße effektiv verringert und die Ausführungsgeschwindigkeit beschleunigt wird, ohne die Genauigkeit wesentlich zu beeinträchtigen .

Warum Quantisierung wichtig ist

Der Hauptgrund für die Quantisierung ist die Notwendigkeit, leistungsstarke KI auf Hardware mit begrenzten Ressourcen einzusetzen. Da Computer-Vision- Modelle wie YOLO26 immer komplexer werden, steigen auch ihre Rechenanforderungen . Die Quantisierung beseitigt drei kritische Engpässe:

  • Speicherbedarf: Durch die Reduzierung der Bitbreite der Gewichte (z. B. von 32 Bit auf 8 Bit) wird der Speicherbedarf des Modells um bis zu 4-mal reduziert. Dies ist für mobile Apps, bei denen die Anwendungsgröße begrenzt ist, von entscheidender Bedeutung.
  • Inferenzlatenz: Operationen mit geringerer Präzision sind rechnerisch weniger aufwendig. Moderne Prozessoren, insbesondere solche mit speziellen Neural Processing Units (NPUs), können INT8-Operationen wesentlich schneller ausführen als FP32, wodurch die Inferenzlatenz erheblich reduziert wird.
  • Stromverbrauch: Durch die Übertragung von weniger Daten durch den Speicher und die Durchführung einfacherer arithmetischer Operationen wird weniger Energie verbraucht, was die Batterielebensdauer in tragbaren Geräten und autonomen Fahrzeugen verlängert.

Vergleich mit verwandten Konzepten

Es ist wichtig, die Quantisierung von anderen Optimierungstechniken zu unterscheiden, da sie das Modell auf unterschiedliche Weise verändern :

  • Quantisierung vs. Pruning: Während die Quantisierung die Dateigröße durch Verringerung der Bitbreite der Parameter reduziert, werden beim Model Pruning unnötige Verbindungen (Gewichte) vollständig entfernt, um ein spärliches Netzwerk zu schaffen. Pruning verändert die Struktur des Modells, während die Quantisierung die Datendarstellung verändert.
  • Quantisierung vs. Wissensdestillation: Wissensdestillation ist eine Trainingstechnik , bei der ein kleines „Schüler”-Modell lernt, ein großes „Lehrer”-Modell nachzuahmen. Quantisierung wird oft nach der Destillation auf das Schülermodell angewendet, um die Edge-KI-Leistung weiter zu verbessern.

Anwendungsfälle in der Praxis

Die Quantisierung ermöglicht Computer Vision und KI in verschiedenen Branchen, in denen Effizienz von größter Bedeutung ist.

  1. Autonome Systeme: In der Automobilindustrie müssen selbstfahrende Autos visuelle Daten von Kameras und LiDAR in Echtzeit verarbeiten. Quantisierte Modelle, die auf NVIDIA TensorRT -Engines ermöglichen es diesen Fahrzeugen, detect und Hindernisse mit einer Latenz von Millisekunden detect und so die Sicherheit der Insassen zu gewährleisten.
  2. Intelligente Landwirtschaft: Mit Multispektralkameras ausgestattete Drohnen verwenden quantisierte Objekterkennungsmodelle, um Pflanzenkrankheiten zu identifizieren oder Wachstumsstadien zu überwachen. Durch die lokale Ausführung dieser Modelle auf den eingebettetenSystemen der Drohne entfällt die Notwendigkeit unzuverlässiger Mobilfunkverbindungen in abgelegenen Gebieten.

Implementierung der Quantisierung mit Ultralytics

Die Ultralytics vereinfacht den Exportprozess und ermöglicht es Entwicklern, Modelle wie das hochmoderne YOLO26 in quantisierte Formate zu konvertieren. Die Ultralytics bietet auch Tools zur nahtlosen Verwaltung dieser Bereitstellungen .

Das folgende Beispiel zeigt, wie ein Modell nach TFLite mit aktivierter INT8-Quantisierung exportiert wird. Dieser Prozess umfasst einen Kalibrierungsschritt, bei dem das Modell Beispieldaten beobachtet, um den optimalen Dynamikbereich für die quantisierten Werte zu bestimmen.

from ultralytics import YOLO

# Load a standard YOLO26 model
model = YOLO("yolo26n.pt")

# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
# 'data' provides the calibration dataset needed for mapping values
model.export(format="tflite", int8=True, data="coco8.yaml")

Optimierte Modelle werden häufig unter Verwendung interoperabler Standards wie ONNX oder leistungsstarken Inferenz-Engines wie OpenVINO, wodurch eine breite Kompatibilität über verschiedene Hardware-Ökosysteme hinweg gewährleistet wird.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten