Glossaire

Quantification du modèle

Optimise les performances de l'IA grâce à la quantification des modèles. Réduis la taille, augmente la vitesse et améliore l'efficacité énergétique pour les déploiements dans le monde réel.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La quantification de modèle est une technique d'optimisation cruciale utilisée dans l'apprentissage automatique pour réduire les coûts de calcul et de mémoire liés au déploiement des modèles d'IA. Elle consiste à convertir les poids et les activations d'un réseau neuronal de nombres à virgule flottante de haute précision (comme les nombres flottants de 32 bits) en formats de précision inférieure, comme les nombres entiers de 8 bits. Ce processus diminue considérablement la taille du modèle et accélère la vitesse d'inférence, ce qui le rend idéal pour le déploiement sur des appareils aux ressources limitées.

Comprendre la quantification des modèles

L'idée centrale derrière la quantification des modèles est de représenter les valeurs numériques d'un modèle avec moins de bits. La plupart des modèles d'apprentissage profond sont formés et fonctionnent à l'aide de nombres à virgule flottante, qui offrent une grande précision mais demandent une puissance de calcul et une mémoire importantes. La quantification réduit cette demande en faisant correspondre la plage continue des valeurs à virgule flottante à un ensemble plus petit de valeurs entières discrètes. Cela peut être comparé à la réduction de la palette de couleurs d'une image ; bien que certains détails puissent être perdus, les informations essentielles sont conservées, et la taille du fichier devient beaucoup plus petite.

Il existe plusieurs techniques de quantification des modèles. La quantification post-entraînement est appliquée après qu'un modèle a été entièrement entraîné, convertissant ses poids et ses activations à une précision inférieure sans entraînement supplémentaire. Il s'agit d'une méthode simple, mais qui peut parfois entraîner une légère baisse de la précision. La formation consciente de la quantification (QAT), en revanche, incorpore le processus de quantification dans la phase de formation elle-même. Cela permet au modèle d'apprendre et de s'adapter aux contraintes de faible précision, ce qui se traduit souvent par une meilleure précision par rapport à la quantification post-entraînement. Des techniques telles que la formation à précision mixte peuvent également être utilisées pour équilibrer la précision et l'efficacité pendant le processus de formation.

Avantages de la quantification des modèles

La quantification des modèles offre plusieurs avantages clés, notamment pour le déploiement de modèles d'IA dans des applications du monde réel :

  • Taille réduite du modèle : La quantification réduit considérablement la taille du fichier du modèle. Par exemple, la conversion d'un modèle de 32 bits flottants en 8 bits entiers peut réduire la taille du modèle jusqu'à quatre fois. Ceci est particulièrement avantageux pour le déploiement de modèles sur des appareils dont le stockage est limité, comme les téléphones portables ou les appareils périphériques.
  • Vitesse d'inférence plus rapide : Les calculs de basse précision sont nettement plus rapides, en particulier sur le matériel optimisé pour l'arithmétique des nombres entiers. Cela permet de réduire le temps de latence de l'inférence et d'améliorer les performances en temps réel, ce qui est crucial pour des applications telles que la détection d'objets en temps réel à l'aide des modèles Ultralytics YOLO .
  • Coût de calcul moins élevé : Effectuer des calculs avec une précision moindre nécessite moins de puissance de calcul et d'énergie. Cela est vital pour les appareils alimentés par batterie et réduit les ressources de calcul globales nécessaires aux applications d'intelligence artificielle.
  • Efficacité énergétique accrue : Des demandes de calcul plus faibles se traduisent par une consommation d'énergie plus faible, ce qui rend les modèles quantifiés plus efficaces sur le plan énergétique. Ceci est particulièrement important pour les systèmes mobiles et embarqués.

Applications dans le monde réel

La quantification des modèles est essentielle pour déployer des modèles d'IA dans un large éventail d'applications, en particulier lorsque les ressources sont limitées ou que la vitesse est essentielle. Voici quelques exemples :

  1. Appareils mobiles : Les smartphones utilisent souvent des modèles quantifiés pour les fonctions d'IA sur l'appareil, comme la reconnaissance d'images et le traitement du langage naturel. La quantification permet à ces modèles complexes de fonctionner efficacement sur les GPU mobiles ou sur du matériel spécialisé comme les Edge TPU que l'on trouve dans des appareils comme le Raspberry Pi, sans épuiser l'autonomie de la batterie ni causer de problèmes de performance. Par exemple, l'exécution d'un modèle Ultralytics YOLO sur une application Android ou iOS bénéficie grandement de la quantification pour la détection d'objets en temps réel.
  2. Informatique de périphérie et appareils IoT : Dans des scénarios tels que les villes intelligentes ou l'automatisation industrielle, les modèles d'IA sont déployés sur de nombreux appareils de périphérie pour le traitement des données en temps réel. La quantification est ici vitale pour permettre un service efficace des modèles sur ces appareils, qui ont souvent une puissance de traitement et une mémoire limitées. Prenons l'exemple d'une caméra intelligente utilisant Ultralytics YOLO pour les systèmes d'alarme de sécurité; la quantification garantit une détection et une réponse opportunes tout en minimisant les exigences matérielles.

Quantification ou élagage du modèle

Bien que la quantification et l'élagage des modèles soient tous deux des techniques d'optimisation des modèles visant à en réduire la taille et à en améliorer l'efficacité, ils fonctionnent différemment. La quantification réduit la précision des représentations numériques, tandis que l'élagage réduit le nombre de paramètres d'un modèle en supprimant les connexions ou les neurones les moins importants. Les deux techniques peuvent être utilisées indépendamment ou en combinaison pour obtenir des performances et une taille de modèle optimales. Des outils comme TensorRT et OpenVINO intègrent souvent la quantification et l'élagage dans leur processus d'optimisation.

En résumé, la quantification de modèle est une technique puissante qui rend l'IA plus accessible et déployable sur un plus grand nombre d'appareils et d'applications en améliorant l'efficacité sans perte significative de précision.

Tout lire