Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Quantification de modèle

Découvrez comment la quantification des modèles optimise Ultralytics pour l'IA en périphérie. Découvrez comment réduire la mémoire, diminuer la latence et exporter des modèles INT8 pour une inférence plus rapide.

La quantification de modèle est une technique sophistiquée d'optimisation de modèle utilisée pour réduire les coûts de calcul et de mémoire liés à l'exécution de modèles d'apprentissage profond. Dans les workflows de formation standard, les réseaux neuronaux stockent généralement les paramètres (weights and biases) et les cartes d'activation à l'aide de nombres à virgule flottante 32 bits (FP32). Si cette haute précision garantit des calculs précis pendant la formation, elle est souvent inutile pour l'inférence. La quantification convertit ces valeurs en formats de moindre précision, tels que les nombres à virgule flottante 16 bits (FP16) ou les entiers 8 bits (INT8), réduisant ainsi efficacement la taille du modèle et accélérant la vitesse d'exécution sans compromettre de manière significative la précision.

Pourquoi la quantification est importante

Le principal moteur de la quantification est la nécessité de déployer une IA puissante sur du matériel aux ressources limitées. À mesure que les modèles de vision par ordinateur tels que YOLO26 deviennent plus complexes, leurs besoins en calcul augmentent. La quantification permet de résoudre trois goulots d'étranglement critiques :

  • Empreinte mémoire : en réduisant la largeur de bits des poids (par exemple, de 32 bits à 8 bits), les besoins en stockage du modèle sont réduits jusqu'à 4 fois. Cela est essentiel pour les applications mobiles où la taille des applications est limitée.
  • Latence d'inférence : les opérations de moindre précision sont moins coûteuses en termes de calcul. Les processeurs modernes, en particulier ceux dotés d'unités de traitement neuronal (NPU) spécialisées, peuvent exécuter des opérations INT8 beaucoup plus rapidement que des opérations FP32, ce qui réduit considérablement la latence d'inférence.
  • Consommation d'énergie : le transfert d'un volume de données moindre dans la mémoire et la réalisation d'opérations arithmétiques plus simples consomment moins d'énergie, ce qui prolonge la durée de vie des batteries des appareils portables et des véhicules autonomes.

Comparaison avec des concepts connexes

Il est important de différencier la quantification des autres techniques d'optimisation, car elles modifient le modèle de manière distincte :

  • Quantification vs élagage : alors que la quantification réduit la taille des fichiers en diminuant la largeur de bande des paramètres, l'élagage du modèle consiste à supprimer complètement les connexions inutiles (poids) afin de créer un réseau clairsemé. L'élagage modifie la structure du modèle, tandis que la quantification modifie la représentation des données.
  • Quantification vs distillation des connaissances : La distillation des connaissances est une technique d'apprentissage dans laquelle un petit modèle « élève » apprend à imiter un grand modèle « enseignant ». La quantification est souvent appliquée au modèle élève après la distillation afin d'améliorer encore les performances de l'IA en périphérie.

Applications concrètes

La quantification permet la vision par ordinateur et l'IA dans divers secteurs où l'efficacité est primordiale.

  1. Systèmes autonomes : dans l'industrie automobile, les voitures autonomes doivent traiter en temps réel les données visuelles provenant des caméras et des capteurs LiDAR. Les modèles quantifiés déployés sur NVIDIA TensorRT permettent à ces véhicules de detect et les obstacles avec une latence de l'ordre de la milliseconde, garantissant ainsi la sécurité des passagers.
  2. Agriculture intelligente : des drones équipés de caméras multispectrales utilisent des modèles de détection d'objets quantifiés pour identifier les maladies des cultures ou surveiller les stades de croissance. L'exécution de ces modèles localement sur les systèmes embarqués des drones élimine le recours à des connexions cellulaires peu fiables dans les champs éloignés.

Mise en œuvre de la quantification avec Ultralytics

Ultralytics simplifie le processus d'exportation, permettant aux développeurs de convertir des modèles comme le très récent YOLO26 en formats quantifiés. La Ultralytics fournit également des outils pour gérer ces déploiements de manière transparente.

L'exemple suivant montre comment exporter un modèle vers TFLite avec la quantification INT8 activée. Ce processus implique une étape de calibrage au cours de laquelle le modèle observe des données échantillonnées afin de déterminer la plage dynamique optimale pour les valeurs quantifiées.

from ultralytics import YOLO

# Load a standard YOLO26 model
model = YOLO("yolo26n.pt")

# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
# 'data' provides the calibration dataset needed for mapping values
model.export(format="tflite", int8=True, data="coco8.yaml")

Les modèles optimisés sont souvent déployés à l'aide de normes interopérables telles que ONNX ou des moteurs d'inférence haute performance tels que OpenVINO, garantissant une large compatibilité entre divers écosystèmes matériels.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant