Glossaire

Inférence en temps réel

Découvre comment l'inférence en temps réel avec Ultralytics YOLO permet des prédictions instantanées pour les applications d'IA comme la conduite autonome et les systèmes de sécurité.

L'inférence en temps réel désigne le processus au cours duquel un modèle d'apprentissage machine (ML) entraîné fait des prédictions ou prend des décisions immédiatement lorsque de nouvelles données arrivent. Contrairement à l'inférence par lots, qui traite les données par groupes collectées au fil du temps, l'inférence en temps réel donne la priorité à une faible latence et à des réponses instantanées. Cette capacité est essentielle pour les applications nécessitant un retour d'information immédiat ou une action basée sur des flux de données en direct, permettant aux systèmes de réagir dynamiquement à des conditions changeantes, s'alignant ainsi sur les principes de l'informatique en temps réel.

Comprendre l'inférence en temps réel

Dans la pratique, l'inférence en temps réel consiste à déployer un modèle de ML, tel qu'une Ultralytics YOLO d'Ultralytics pour la vision par ordinateur (VA), de façon à ce qu'il puisse analyser des entrées de données individuelles (comme des images vidéo ou des lectures de capteurs) et produire des sorties avec un délai minimal. La principale mesure de performance est la latence d'inférence, c'est-à-dire le temps nécessaire entre la réception d'une entrée et la génération d'une prédiction. L'obtention d'une faible latence implique souvent plusieurs stratégies, notamment l'optimisation du modèle lui-même et l'utilisation de matériel et de logiciels spécialisés.

Inférence en temps réel vs. Inférence par lots

La principale différence réside dans la façon dont les données sont traitées et dans les exigences de latence qui en découlent :

Inférence en temps réel : Traite les données point par point au fur et à mesure qu'elles arrivent, en s'attachant à minimiser le délai pour chaque prédiction. Essentiel pour les systèmes interactifs ou les applications nécessitant des réponses immédiates. Pense à la détection d'un obstacle pour une voiture auto-conduite.
Inférence par lots : Traite les données en gros morceaux ou en lots, souvent programmés périodiquement. Optimisée pour le débit (traitement efficace de grands volumes de données) plutôt que pour la latence. Convient à des tâches telles que la génération de rapports quotidiens ou l'analyse de grands ensembles de données hors ligne. Google Cloud offre un aperçu de la prédiction par lots.

Applications de l'inférence en temps réel

L'inférence en temps réel alimente de nombreuses applications modernes d'intelligence artificielle (IA) où la prise de décision instantanée est cruciale :

Systèmes autonomes : Dans l'IA pour les voitures autonomes et la robotique, l'inférence en temps réel est essentielle pour naviguer dans les environnements, détecter les obstacles(détection d'objets) et prendre des décisions de conduite en une fraction de seconde.
Sécurité et surveillance : Les systèmes de sécurité utilisent l'inférence en temps réel pour détecter les intrusions, identifier les activités suspectes ou surveiller les foules instantanément.
Santé : Permettre l'analyse immédiate des images médicales pendant les procédures ou les diagnostics peut améliorer considérablement les résultats pour les patients et la précision des diagnostics.
Fabrication : Le contrôle de la qualité en temps réel dans la fabrication permet de détecter immédiatement les défauts sur la chaîne de production, ce qui réduit le gaspillage et améliore l'efficacité.
Applications interactives : Les assistants virtuels, la traduction linguistique en temps réel et les systèmes de recommandation de contenu s'appuient sur une inférence à faible latence pour offrir des expériences transparentes aux utilisateurs.

Obtenir des performances en temps réel

Faire fonctionner les modèles assez rapidement pour les applications en temps réel nécessite souvent une optimisation importante :

Optimisation du modèle : Des techniques comme la quantification du modèle (réduction de la précision des poids du modèle) et l'élagage du modèle (suppression des parties redondantes du modèle) réduisent la charge de calcul et l'utilisation de la mémoire.
Accélération matérielle : L'utilisation de matériel spécialisé tel que les GPU, les TPU (Tensor Processing Units) ou les accélérateurs d'IA dédiés sur les appareils périphériques (par exemple, NVIDIA Jetson, Google Coral Edge TPU) peut accélérer considérablement les calculs. L'Edge computing lui-même est crucial pour traiter les données localement avec un délai minimal.
Moteurs d'inférence efficaces : Les bibliothèques logicielles et les moteurs d'exécution comme TensorRT, OpenVINO ONNX Runtime, et des frameworks comme PyTorch ou TensorFlow fournissent des chemins d'exécution optimisés pour les modèles entraînés. Un moteur d'inférence est spécifiquement conçu pour exécuter efficacement les modèles pour la prédiction.

Des modèles comme Ultralytics YOLO11 sont conçus dans un souci d'efficacité et de précision, ce qui les rend bien adaptés aux tâches de détection d'objets en temps réel. Des plateformes comme Ultralytics HUB fournissent des outils pour former, optimiser (par exemple, exporter vers ONNX ou TensorRT ) et de déployer des modèles, ce qui facilite la mise en œuvre de solutions d'inférence en temps réel dans le cadre de diverses options de déploiement.

Inférence en temps réel

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Comprendre l'inférence en temps réel

Inférence en temps réel vs. Inférence par lots

Applications de l'inférence en temps réel

Obtenir des performances en temps réel

Lire plus de blogs

Rejoins la communauté Ultralytics

Inférence en temps réel

Entraîne les modèles YOLO simplementavec Ultralytics HUB

Solution flexible de licence d'entreprise pour alimenter ton innovation.

Entraîne des modèles d'IA en quelques secondes avec Ultralytics YOLO

Entraîne les modèles YOLO simplement avec Ultralytics HUB

Comprendre l'inférence en temps réel

Inférence en temps réel vs. Inférence par lots

Applications de l'inférence en temps réel

Obtenir des performances en temps réel

Lire plus de blogs

Rejoins la communauté Ultralytics

Entraîne les modèles YOLO simplement
avec Ultralytics HUB