Glossaire

Temps de latence de l'inférence

Découvre pourquoi la latence de l'inférence est importante dans l'IA, ses facteurs clés et comment l'optimiser pour obtenir des performances en temps réel dans diverses applications.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La latence d'inférence désigne le temps nécessaire à un modèle d'apprentissage automatique ou d'IA pour traiter une entrée et fournir une sortie pendant l'inférence. Cette métrique est essentielle dans les applications où des réponses en temps réel ou quasi réel sont indispensables, comme les véhicules autonomes, les diagnostics de santé ou les systèmes de caisse des commerces de détail. La latence d'inférence est souvent mesurée en millisecondes (ms) et a un impact direct sur l'expérience utilisateur et l'efficacité du système des applications pilotées par l'IA.

Pourquoi la latence d'inférence est-elle importante ?

La latence d'inférence est une mesure de performance clé pour évaluer la vitesse et la facilité d'utilisation d'un modèle d'IA. Une latence plus faible garantit des réponses plus rapides, ce qui est crucial pour les applications nécessitant une prise de décision en temps réel. Par exemple, dans les véhicules autonomes, tout retard dans la reconnaissance des piétons ou des feux de circulation peut avoir de graves conséquences sur la sécurité. De même, dans le domaine de la santé, l'analyse rapide des images médicales peut sauver des vies dans les situations d'urgence.

L'optimisation de la latence d'inférence permet non seulement d'améliorer la satisfaction de l'utilisateur, mais aussi de réduire les coûts de calcul, en particulier dans les environnements à ressources limitées comme les appareils périphériques ou les plateformes mobiles.

Facteurs influençant le temps de latence de l'inférence

Plusieurs facteurs contribuent à la latence de l'inférence, notamment :

  • Complexité du modèle: Les modèles plus grands et plus complexes, tels que ceux qui comportent de nombreuses couches ou paramètres, prennent généralement plus de temps à traiter les entrées.
  • Performance du matériel: Le choix du matériel, comme les GPU, les TPU ou les CPU, influe considérablement sur la latence. Par exemple, les GPU sont optimisés pour le traitement parallèle, ce qui réduit souvent la latence dans les tâches d'inférence.
  • Taille des lots: Le traitement simultané de plusieurs entrées (mise en lot) peut réduire ou augmenter la latence en fonction de l'application et des capacités matérielles. En savoir plus sur l'optimisation de la taille des lots.
  • Techniques d'optimisation: Les techniques telles que la quantification du modèle et l'élagage peuvent réduire considérablement la latence en simplifiant le modèle ou en réduisant sa taille.
  • Cadre et outils: Le cadre logiciel utilisé pour l'inférence, tel que PyTorch ou TensorRT, peut influencer la latence grâce à l'optimisation et à l'accélération matérielle.

Optimiser le temps de latence de l'inférence

Pour réduire le temps de latence de l'inférence, les développeurs emploient souvent plusieurs stratégies :

  • Optimisation des modèles: Des techniques comme l'élagage, la quantification ou la distillation des connaissances peuvent rationaliser les modèles, ce qui les rend plus rapides à exécuter. En savoir plus sur l'optimisation des modèles.
  • Accélération matérielle: Utilisation d'accélérateurs dédiés comme les GPU NVIDIA avec TensorRT ou la boîte à outils de IntelOpenVINO peut améliorer considérablement les temps d'inférence.
  • Déploiement efficace: L'utilisation de formats de déploiement optimisés tels que ONNX ou TensorFlow Lite permet de s'assurer que les modèles sont mieux adaptés à des plates-formes spécifiques.
  • Edge AI: l'exécution de l'inférence sur des appareils périphériques, tels que le Raspberry Pi avec Coral Edge TPU, minimise la latence introduite par le traitement basé sur le nuage.

Applications dans le monde réel

1. Véhicules autonomes

Le temps de latence de l'inférence joue un rôle essentiel dans les voitures auto-conduites. Par exemple, les modèles déployés pour la détection d'objets et la prise de décision en temps réel doivent traiter rapidement les flux des caméras pour reconnaître les obstacles, les piétons et les panneaux de signalisation. Ultralytics YOLO modèles, utilisés dans AI for Self-Driving, permettent une détection rapide tout en conservant une grande précision.

2. Automatisation des caisses de paiement

Dans les environnements de vente au détail, les systèmes d'IA par vision utilisent la détection d'objets pour reconnaître les produits à la caisse, ce qui élimine le besoin de codes-barres. L'inférence à faible latence garantit une expérience client transparente. Découvre comment l 'IA dans le commerce de détail améliore l'efficacité opérationnelle grâce à une détection rapide et précise des objets.

3. Diagnostics de santé

Les applications d'imagerie médicale reposent sur une faible latence d'inférence pour des diagnostics rapides. Par exemple, les modèles d'IA qui analysent les tomodensitogrammes à la recherche d'anomalies doivent fournir des résultats en temps réel pour aider les médecins à prendre des décisions rapides. En savoir plus sur l'IA dans le domaine de la santé.

Concepts apparentés

Alors que la latence d'inférence se concentre sur le temps de réponse pendant l'inférence, elle est distincte des termes connexes tels que :

  • Inférence en temps réel: Désigne les tâches d'inférence nécessitant des réponses instantanées, souvent avec des contraintes de latence strictes. En savoir plus sur l'inférence en temps réel.
  • Précision: Contrairement à la latence, la précision évalue l'exactitude des prédictions du modèle. Explore la précision pour comprendre son rôle dans les performances des modèles d'IA.
  • Débit: Mesure le nombre d'inférences qu'un modèle peut effectuer par seconde et est souvent optimisé en même temps que la latence. Pour les applications qui donnent la priorité à la vitesse, apprends à équilibrer la latence et le débit.

Conclusion

La latence de l'inférence est une métrique critique dans le déploiement des modèles d'IA, en particulier pour les applications exigeant des performances en temps réel ou à faible latence. En comprenant les facteurs qui influencent la latence et en employant des techniques d'optimisation, les développeurs peuvent s'assurer que leurs modèles fournissent des résultats rapides et fiables. Le HUB Ultralytics fournit des outils pour former, déployer et surveiller efficacement les modèles, ce qui facilite l'obtention de performances optimales dans divers cas d'utilisation. Explore le HUB Ultralytics pour rationaliser tes flux de travail en matière d'IA.

Tout lire