Glossaire

Formation consciente de la quantification (QAT)

Optimise les modèles d'IA pour les appareils périphériques grâce à l'entraînement conscient de la quantification (QAT), ce qui garantit une grande précision et une grande efficacité dans les environnements aux ressources limitées.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage conscient de la quantification (QAT) est une technique d'optimisation cruciale dans l'apprentissage automatique qui comble le fossé entre les modèles d'IA de haute précision et leur déploiement efficace sur des appareils aux ressources limitées. À mesure que les applications de l'IA s'étendent aux appareils périphériques comme les smartphones, les capteurs IoT et les systèmes embarqués, le besoin de modèles à la fois précis et efficaces sur le plan informatique devient primordial. QAT relève ce défi en simulant les effets de la quantification pendant la phase d'apprentissage du modèle, ce qui conduit à des modèles robustes et optimisés pour le matériel de faible précision.

Comment fonctionne l'apprentissage par quantification

Le Quantization-Aware Training affine les réseaux neuronaux pour tolérer la précision numérique réduite inhérente aux environnements de déploiement. Contrairement à la quantification post-entraînement, qui est appliquée après qu'un modèle a été entièrement entraîné, la QAT intègre la quantification dans la boucle d'entraînement elle-même. Pour ce faire, il simule le processus de quantification - en réduisant la précision numérique des poids et des activations - pendant les passes avant et arrière. Ce faisant, le modèle apprend à compenser la perte de précision, ce qui permet d'obtenir un modèle qui conserve une plus grande précision lorsqu'il est effectivement quantifié pour être déployé. Cette méthode implique l'utilisation d'opérations de "fausse quantification" qui imitent l'arithmétique de faible précision, telle que int8, tout en effectuant les calculs de gradient et les mises à jour de poids avec une précision totale. Cette approche permet au modèle de s'adapter et de devenir moins sensible aux effets de la quantification, ce qui se traduit par de meilleures performances dans l'inférence quantifiée.

Pour une compréhension plus large des techniques d'optimisation, reporte-toi au guide sur l'optimisation des modèles, qui donne un aperçu rapide des méthodes permettant d'améliorer l'efficacité des modèles.

Distinction par rapport aux concepts apparentés

QAT vs. Quantification par modèle

Bien que le QAT et la quantification de modèle visent tous deux à réduire la précision du modèle, leurs approches et leurs résultats diffèrent considérablement. La quantification de modèle est généralement un processus post-entraînement qui convertit un modèle entraîné de précision totale en un format de précision inférieure (comme INT8) afin de réduire la taille du modèle et d'accélérer l'inférence. Cette méthode est simple mais peut parfois entraîner une baisse considérable de la précision, en particulier pour les modèles complexes. QAT, en revanche, prépare de manière proactive le modèle à la quantification pendant la formation, ce qui permet d'atténuer la perte de précision et d'obtenir souvent des performances supérieures dans les environnements de faible précision.

QAT vs. précision mixte

La formation en précision mixte est une autre technique d'optimisation axée sur l'accélération du processus de formation et la réduction de l'empreinte mémoire pendant la formation. Elle consiste à utiliser des nombres à virgule flottante de 16 bits et de 32 bits dans le réseau. Alors que la précision mixte vise principalement l'efficacité de la formation, le QAT est spécifiquement conçu pour améliorer les performances des modèles après la quantification, en se concentrant sur l'efficacité et la précision de l'inférence dans les scénarios de déploiement à faible précision.

Applications concrètes de la TAQ

La formation consciente de la quantification est essentielle pour déployer des modèles d'IA dans des applications du monde réel où l'efficacité des ressources est essentielle. Voici quelques exemples :

Exemple 1 : l'intelligence artificielle dans les appareils intelligents

Dans les appareils intelligents comme les smartphones et les appareils IoT, les ressources informatiques et la puissance sont limitées. QAT est largement utilisé pour optimiser les modèles pour les applications edge AI, permettant un traitement en temps réel directement sur l'appareil. Par exemple, Ultralytics YOLO , un modèle de détection d'objets de pointe, peut être optimisé à l'aide de QAT pour garantir une détection d'objets efficace en temps réel dans des applications telles que les systèmes de sécurité des maisons intelligentes ou les caméras alimentées par l'IA. En réduisant la taille du modèle et les demandes de calcul, QAT permet d'exécuter des tâches d'IA complexes sur des appareils dont les capacités de traitement sont limitées.

Exemple 2 : Véhicules autonomes et robotique

Les véhicules autonomes et la robotique nécessitent des systèmes d'IA capables de prendre des décisions rapides dans des conditions strictes de latence et de puissance. QAT joue un rôle essentiel dans l'optimisation des modèles en vue de leur déploiement dans les systèmes embarqués au sein de ces applications. Par exemple, l'application de l'EAQ aux Ultralytics YOLOv8 modèles peut améliorer considérablement l'efficacité des systèmes de détection des véhicules et de suivi des piétons, qui sont cruciaux pour la prise de décision en temps réel dans le cadre de la conduite autonome. Cette optimisation garantit que l'IA peut fonctionner efficacement dans les limites de puissance et de calcul du matériel du véhicule.

Pour découvrir comment les solutions Ultralytics sont appliquées dans divers secteurs d'activité, visite le site Ultralytics Solutions.

Tout lire