Glossaire

Inférence en temps réel

Découvre comment l'inférence en temps réel avec Ultralytics YOLO permet des prédictions instantanées pour les applications d'IA comme la conduite autonome et les systèmes de sécurité.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'inférence en temps réel désigne le processus au cours duquel un modèle d'apprentissage machine (ML) entraîné fait des prédictions ou prend des décisions immédiatement lorsque de nouvelles données arrivent. Contrairement à l'inférence par lots, qui traite les données par groupes collectées au fil du temps, l'inférence en temps réel donne la priorité à une faible latence et à des réponses instantanées. Cette capacité est essentielle pour les applications qui nécessitent un retour d'information immédiat ou une action basée sur des flux de données en direct, ce qui permet aux systèmes de réagir de façon dynamique à des conditions changeantes.

Comprendre l'inférence en temps réel

Dans la pratique, l'inférence en temps réel consiste à déployer un modèle de ML, tel qu'une Ultralytics YOLO d'Ultralytics pour la vision par ordinateur, de façon à ce qu'il puisse analyser des entrées de données individuelles (comme des images vidéo ou des lectures de capteurs) et produire des sorties avec un délai minimal. La principale mesure de performance est la latence d'inférence, c'est-à-dire le temps nécessaire entre la réception d'une entrée et la génération d'une prédiction. L'obtention d'une faible latence implique souvent plusieurs stratégies :

  • Optimisation du modèle : Des techniques comme la quantification du modèle (réduction de la précision des poids du modèle) et l'élagage du modèle (suppression des paramètres du modèle les moins importants) sont utilisées pour créer des modèles plus petits et plus rapides.
  • Accélération matérielle : L'utilisation de matériel spécialisé comme les GPU, les TPU ou les accélérateurs d'IA dédiés sur les appareils périphériques (par exemple, NVIDIA Jetson, Google Coral Edge TPU) accélère considérablement les calculs.
  • Logiciel efficace : En utilisant des moteurs d'inférence optimisés et des moteurs d'exécution comme TensorRT, OpenVINOou ONNX Runtime permet de maximiser les performances sur le matériel cible. Des frameworks comme PyTorch offrent également des fonctions permettant une inférence efficace.

Inférence en temps réel vs. Inférence par lots

La principale différence réside dans la façon dont les données sont traitées et dans les exigences de latence qui en découlent :

  • Inférence en temps réel : Traite des points de données uniques ou de petits mini-lots au fur et à mesure qu'ils arrivent. L'accent est mis sur la réduction de la latence pour obtenir des résultats immédiats. Idéal pour les systèmes interactifs ou les applications réagissant à des événements en direct.
  • Inférence par lots : Traite de grands volumes de données accumulées au fil du temps. Se concentre sur la maximisation du débit (traitement efficace de grandes quantités de données) plutôt que sur la minimisation de la latence pour les prédictions individuelles. Convient aux analyses hors ligne, aux rapports ou aux tâches pour lesquelles les résultats immédiats ne sont pas essentiels, comme l'explique l'aperçu des prédictions par lots deGoogle Cloud.

Applications de l'inférence en temps réel

L'inférence en temps réel alimente de nombreuses applications modernes de l'IA où la prise de décision instantanée est cruciale :

  1. Systèmes autonomes : Les voitures auto-conduites s'appuient fortement sur l'inférence en temps réel pour la détection des objets (identification des piétons, des véhicules, des obstacles) et la navigation, ce qui permet au véhicule de réagir instantanément à son environnement. Les modèles Ultralytics sont souvent utilisés dans le développement de l'IA pour les voitures auto-conduites.
  2. Sécurité et surveillance : Les systèmes de sécurité alimentés par l'IA utilisent l'inférence en temps réel pour détecter les intrusions, identifier les activités suspectes ou surveiller les foules dans les flux vidéo en direct, ce qui permet des alertes et des réponses immédiates.
  3. Diagnostics médicaux : Dans l'analyse d'images médicales, l'inférence en temps réel peut aider les médecins pendant les procédures en fournissant un retour instantané ou en mettant en évidence des anomalies dans l'imagerie en direct comme l'échographie, améliorant potentiellement la précision du diagnostic.
  4. Automatisation industrielle : L'inférence en temps réel permet d'automatiser le contrôle de la qualité dans la fabrication en identifiant instantanément les défauts sur les chaînes de production ou en guidant les bras robotisés pour des tâches précises.

Des plateformes comme Ultralytics HUB fournissent des outils pour former, optimiser et déployer des modèles, facilitant ainsi la mise en œuvre de solutions d'inférence en temps réel à travers diverses options de déploiement.

Tout lire