Optimisez les performances de l'IA avec une faible latence d'inférence. Apprenez les facteurs clés, les applications réelles et les techniques pour améliorer les réponses en temps réel.
La latence d'inférence est le temps nécessaire à un modèle d'apprentissage machine (ML) entraîné pour recevoir une entrée et renvoyer une sortie ou une prédiction correspondante. Mesurée en millisecondes (ms), elle constitue une mesure de performance critique dans le domaine de l'intelligence artificielle (IA), en particulier pour les applications qui nécessitent un retour d'information immédiat. Une faible latence est essentielle pour créer des systèmes d'intelligence artificielle réactifs et efficaces, capables de fonctionner dans des environnements dynamiques et réels.
Une faible latence d'inférence est essentielle pour permettre l'inférence en temps réel, où les prédictions doivent être fournies dans un délai strict pour être utiles. Dans de nombreux scénarios, un retard de quelques millisecondes peut rendre une application inefficace ou dangereuse. Par exemple, une voiture auto-conduite doit identifier instantanément les piétons et les obstacles pour éviter les collisions, tandis qu'un assistant interactif d'IA doit répondre rapidement aux questions de l'utilisateur pour maintenir un flux de conversation naturel. L'obtention d'une faible latence est un défi central dans le déploiement de modèles, qui a un impact direct sur l'expérience de l'utilisateur et la faisabilité de l'application.
Le temps de latence de l'inférence est un facteur décisif dans le succès de nombreuses applications de vision par ordinateur. En voici deux exemples :
Plusieurs facteurs influencent la rapidité avec laquelle un modèle peut effectuer une inférence :
Bien qu'ils soient souvent évoqués ensemble, le temps de latence de l'inférence et le débit mesurent des aspects différents de la performance.
L'optimisation de l'un peut avoir un impact négatif sur l'autre. Par exemple, l'augmentation de la taille des lots améliore généralement le débit, mais augmente le temps nécessaire pour obtenir un résultat pour chaque entrée de ce lot, ce qui aggrave le temps de latence. Il est essentiel de comprendre ce compromis entre latence et débit pour concevoir des systèmes d'IA qui répondent à des exigences opérationnelles spécifiques.
La gestion de la latence d'inférence est un exercice d'équilibre entre la précision du modèle, le coût de calcul et le temps de réponse. L'objectif final est de sélectionner un modèle et une stratégie de déploiement qui répondent aux besoins de performance de l'application, un processus qui peut être géré à l'aide de plateformes comme Ultralytics HUB.