Découvre comment l'inférence en temps réel avec Ultralytics YOLO permet des prédictions instantanées pour les applications d'IA comme la conduite autonome et les systèmes de sécurité.
L'inférence en temps réel désigne le processus au cours duquel un modèle d'apprentissage machine (ML) entraîné fait des prédictions ou prend des décisions immédiatement lorsque de nouvelles données arrivent. Contrairement à l'inférence par lots, qui traite les données par groupes collectées au fil du temps, l'inférence en temps réel donne la priorité à une faible latence et à des réponses instantanées. Cette capacité est essentielle pour les applications nécessitant un retour d'information immédiat ou une action basée sur des flux de données en direct, permettant aux systèmes de réagir dynamiquement à des conditions changeantes, s'alignant ainsi sur les principes de l'informatique en temps réel.
Dans la pratique, l'inférence en temps réel consiste à déployer un modèle de ML, tel qu'une Ultralytics YOLO d'Ultralytics pour la vision par ordinateur (VA), de façon à ce qu'il puisse analyser des entrées de données individuelles (comme des images vidéo ou des lectures de capteurs) et produire des sorties avec un délai minimal. La principale mesure de performance est la latence d'inférence, c'est-à-dire le temps nécessaire entre la réception d'une entrée et la génération d'une prédiction. L'obtention d'une faible latence implique souvent plusieurs stratégies, notamment l'optimisation du modèle lui-même et l'utilisation de matériel et de logiciels spécialisés.
La principale différence réside dans la façon dont les données sont traitées et dans les exigences de latence qui en découlent :
L'inférence en temps réel alimente de nombreuses applications modernes d'intelligence artificielle (IA) où la prise de décision instantanée est cruciale :
Faire fonctionner les modèles assez rapidement pour les applications en temps réel nécessite souvent une optimisation importante :
Des modèles comme Ultralytics YOLO11 sont conçus dans un souci d'efficacité et de précision, ce qui les rend bien adaptés aux tâches de détection d'objets en temps réel. Des plateformes comme Ultralytics HUB fournissent des outils pour former, optimiser (par exemple, exporter vers ONNX ou TensorRT ) et de déployer des modèles, ce qui facilite la mise en œuvre de solutions d'inférence en temps réel dans le cadre de diverses options de déploiement.