Les inférences en temps réel dans les solutions d'IA de Vision ont un impact.

Découvre pourquoi les inférences en temps réel dans la vision par ordinateur sont importantes pour toute une série d'applications et explore leur rôle dans la prise de décision instantanée.

Écrit par

Abirami Vina

min lire

20 février 2025

24 mars 2025

Qu'est-ce qu'une déduction d'IA ?

Comprendre les moteurs d'inférence

Problèmes causés par la latence de l'inférence

Comment réduire le temps de latence de l'inférence

Taille des modèles

Quantification du modèle

Utiliser des modèles efficaces

Vitesse ou précision : optimiser les déductions en temps réel

Vision Les applications d'IA qui exploitent les inférences en temps réel

Systèmes d'encaissement automatique dans les magasins de détail

Inspection de la qualité à l'aide de la vision par ordinateur

Principaux enseignements

Nous avons tous eu affaire aux frustrations qu'une connexion Internet lente peut causer à un moment ou à un autre. Cependant, imagine ce retard dans une situation à fort enjeu, comme une voiture auto-conduite qui réagit à un obstacle ou un médecin qui analyse un scan critique. Quelques secondes supplémentaires peuvent avoir de graves conséquences.

C'est là que l'inférence d'IA en temps réel peut faire la différence. Le traitement rapide et les prédictions en temps réel permettent aux solutions de vision par ordinateur de traiter les données visuelles et d'y réagir instantanément. Ces décisions prises en une fraction de seconde peuvent renforcer la sécurité, l'efficacité et la commodité au quotidien.

Prenons l'exemple d'un chirurgien qui effectue une intervention délicate à l'aide d'un assistant robotique. Chaque mouvement est contrôlé par une connexion à haut débit, et le système de vision du robot traite le champ opératoire en temps réel, donnant au chirurgien un retour visuel instantané. Le moindre retard dans cette boucle de rétroaction pourrait entraîner de graves erreurs, mettant le patient en danger. C'est un exemple parfait de la raison pour laquelle les déductions en temps réel sont cruciales ; il n'y a pas de place pour le décalage.

Les inférences de l'IA dans les applications du monde réel dépendent de trois concepts clés : les moteurs d'inférence (le logiciel ou le matériel qui exécute efficacement les modèles d'IA), la latence d'inférence (le délai entre l'entrée et la sortie), et l'inférence en temps réel (la capacité du système d'IA à traiter et à réagir avec un délai minimal).

Dans cet article, nous allons explorer ces concepts de base et la façon dont les modèles de vision par ordinateur comme les Ultralytics YOLO11 permettent des applications qui s'appuient sur des prédictions instantanées.

Qu'est-ce qu'une déduction d'IA ?

L'exécution d'une inférence est le processus d'analyse de nouvelles données à l'aide d'un modèle d'IA formé pour faire une prédiction ou résoudre une tâche. Contrairement à la formation, qui consiste à enseigner un modèle en traitant de vastes quantités de données étiquetées, l'inférence se concentre sur la production de résultats rapides et précis à l'aide d'un modèle déjà formé.

Fig 1. Comprendre ce que sont les déductions.

‍

Par exemple, dans le domaine de la conservation de la faune, les pièges à caméra IA utilisent des modèles de vision artificielle pour identifier et classer les animaux en temps réel. Lorsqu'une caméra détecte un mouvement, le modèle d'IA reconnaît instantanément s'il s'agit d'un cerf, d'un prédateur ou même d'un braconnier, ce qui aide les chercheurs à suivre les populations animales et à protéger les espèces menacées sans intervention humaine. Cette identification rapide permet une surveillance en temps réel et des réponses plus rapides aux menaces potentielles.

Comprendre les moteurs d'inférence

Un modèle d'apprentissage automatique formé n'est pas toujours prêt à être déployé sous sa forme brute. Un moteur d'inférence est un outil logiciel ou matériel spécialisé conçu pour exécuter efficacement les modèles d'apprentissage automatique et les optimiser pour un déploiement dans le monde réel. Il utilise des techniques d'optimisation telles que la compression de modèles, la quantification et les transformations de graphes pour améliorer les performances et réduire la consommation de ressources, ce qui rend le modèle déployable dans divers environnements.

À la base, un moteur d'inférence se concentre sur la réduction de la surcharge de calcul, la minimisation de la latence et l'amélioration de l'efficacité pour permettre des prédictions rapides et précises. Une fois optimisé, le moteur exécute le modèle sur de nouvelles données, ce qui lui permet de générer efficacement des inférences en temps réel. Cette optimisation garantit que les modèles d'IA peuvent fonctionner sans problème à la fois sur des serveurs cloud très performants et sur des appareils périphériques aux ressources limitées comme les smartphones, les appareils IoT et les systèmes embarqués.

Problèmes causés par la latence de l'inférence

La latence d'inférence est le délai entre le moment où un système d'IA reçoit des données d'entrée (comme une image provenant d'une caméra) et le moment où il produit une sortie (comme la détection d'objets dans l'image). Même un petit retard peut avoir un impact significatif sur les performances et la facilité d'utilisation des applications d'IA en temps réel.

Le temps de latence de l'inférence se produit en trois étapes clés :

Temps de prétraitement: Le temps nécessaire pour préparer les données d'entrée avant qu'elles ne soient introduites dans le modèle. Il s'agit notamment de redimensionner les images pour qu'elles correspondent aux dimensions d'entrée du modèle, de normaliser les valeurs des pixels pour une meilleure précision et de convertir les formats (par exemple, RVB en niveaux de gris ou vidéo en séquences d'images).
Temps de calcul: Le temps réel que prend le modèle pour effectuer l'inférence. Cela implique des opérations telles que les calculs par couches dans les réseaux profonds, les multiplications de matrices, les convolutions et le transfert de données entre la mémoire et les unités de traitement.
Temps de post-traitement: Le temps nécessaire pour convertir les sorties brutes du modèle en résultats significatifs. Il peut s'agir de dessiner des boîtes de délimitation dans la détection d'objets, de filtrer les faux positifs dans la reconnaissance d'images ou d'appliquer des seuils dans la détection d'anomalies.

La latence de l'inférence est essentielle dans les applications en temps réel. Par exemple, dans la détection automatisée des défauts sur une chaîne de montage, la vision par ordinateur peut être utilisée pour inspecter les produits au fur et à mesure qu'ils se déplacent sur le tapis roulant.

Le système doit rapidement identifier et signaler les défauts avant que les produits ne passent à l'étape suivante. Si le modèle met trop de temps à traiter les images, les articles défectueux risquent de ne pas être repérés à temps, ce qui entraîne un gaspillage de matériaux, des retouches coûteuses ou des produits défectueux qui parviennent aux clients. En réduisant le temps de latence, les fabricants peuvent améliorer le contrôle de la qualité, augmenter l'efficacité et réduire les pertes.

Comment réduire le temps de latence de l'inférence

Dans de nombreuses applications de vision par ordinateur, il est essentiel de réduire au minimum le temps de latence de l'inférence. Diverses techniques peuvent être utilisées pour y parvenir. Examinons quelques-unes des techniques les plus courantes utilisées pour réduire le temps de latence de l'inférence.

Taille des modèles

L'élagage du modèle simplifie un réseau neuronal en supprimant les connexions inutiles (poids), ce qui le rend plus petit et plus rapide. Ce processus réduit la charge de calcul du modèle, ce qui améliore la vitesse sans trop affecter la précision.

En ne conservant que les connexions les plus importantes, l'élagage garantit une inférence efficace et de meilleures performances, en particulier sur les appareils dont la puissance de traitement est limitée. Il est largement utilisé dans les applications en temps réel comme l'IA mobile, la robotique et l'edge computing pour améliorer l'efficacité tout en maintenant la fiabilité.

Fig 2. Élimination des connexions moins efficaces à l'aide de l'élagage du modèle.

‍

Quantification du modèle

La quantification des modèles est une technique qui permet aux modèles d'IA de fonctionner plus rapidement et d'utiliser moins de mémoire en simplifiant les nombres qu'ils utilisent pour les calculs. Normalement, ces modèles travaillent avec des nombres à virgule flottante de 32 bits, qui sont très précis mais nécessitent beaucoup de puissance de traitement. La quantification réduit ces nombres à des entiers de 8 bits, qui sont plus faciles à traiter et prennent moins de place.

Fig 3. Utilisation de la quantification de modèle pour convertir les valeurs à virgule flottante en représentations entières.

‍

Utiliser des modèles efficaces

La conception d'un modèle d'IA a un impact majeur sur la rapidité avec laquelle il peut faire des prédictions. Les modèles comme YOLO11, qui sont construits pour une inférence efficace, sont idéaux pour les applications où la vitesse de traitement est essentielle.

Lorsque tu construis une solution d'IA, il est important de choisir le bon modèle en fonction des ressources disponibles et des besoins en termes de performances. Si tu commences avec un modèle trop lourd, tu risques davantage de rencontrer des problèmes tels que des temps de traitement lents, une consommation d'énergie plus élevée et des difficultés de déploiement sur des appareils aux ressources limitées. Un modèle léger garantit des performances fluides, en particulier pour les applications en temps réel et en périphérie.

Vitesse ou précision : optimiser les déductions en temps réel

Bien qu'il existe diverses techniques pour réduire la latence, un élément clé des inférences en temps réel est l'équilibre entre la vitesse et la précision. Il ne suffit pas de rendre les modèles plus rapides - la vitesse d'inférence doit être optimisée sans compromettre la précision. Un système qui produit des prédictions rapides mais incorrectes est inefficace. C'est pourquoi il est essentiel de procéder à des tests approfondis pour s'assurer que les modèles fonctionnent bien dans des situations réelles. Un système qui semble rapide pendant les tests mais qui échoue dans les conditions réelles n'est pas vraiment optimisé.

Vision Les applications d'IA qui exploitent les inférences en temps réel

Ensuite, voyons quelques applications du monde réel où l'inférence en temps réel transforme les industries en permettant des réponses instantanées aux données visuelles.

Systèmes d'encaissement automatique dans les magasins de détail

Les modèles de vision par ordinateur tels que YOLO11 peuvent contribuer à améliorer les systèmes de caisses automatiques en rendant la reconnaissance des articles plus rapide et plus précise. La prise en charge par YOLO11 de diverses tâches de vision par ordinateur, comme la détection d'objets et la segmentation d'instances, permet d'identifier les produits même si les codes-barres sont manquants ou endommagés. L'IA par vision peut réduire le besoin de saisie manuelle et accélérer le processus de passage en caisse.

Au-delà de l'identification des produits, la vision par ordinateur peut également être intégrée dans les systèmes de caisse automatique pour vérifier les prix, prévenir la fraude et améliorer le confort des clients. Les caméras alimentées par l'IA peuvent automatiquement faire la distinction entre des produits similaires et détecter les comportements suspects à la caisse. Il s'agit notamment d'identifier les "non-scans", lorsqu'un client ou un caissier manque involontairement un article, et les tentatives de fraude plus délibérées, comme le "changement de produit", qui consiste à placer un code-barres moins cher sur un article plus onéreux.

Fig 4. L'IA peut améliorer les comptoirs d'auto-évaluation.

‍

Un excellent exemple est celui de Kroger, un grand détaillant américain, qui a intégré la vision par ordinateur et l'IA dans ses systèmes de caisses automatiques. Grâce à l'analyse vidéo en temps réel, Kroger a pu corriger automatiquement plus de 75 % des erreurs de caisse, améliorant ainsi à la fois l'expérience client et le fonctionnement du magasin.

Inspection de la qualité à l'aide de la vision par ordinateur

L 'inspection manuelle des produits pour le contrôle de la qualité peut être lente et pas toujours précise. C'est pourquoi de plus en plus de fabricants optent pour des flux de travail d'inspection visuelle qui utilisent la vision par ordinateur pour détecter les défauts plus tôt dans le processus de production.

Les caméras haute résolution et Vision AI peuvent repérer de minuscules défauts que les humains pourraient manquer, et des modèles comme YOLO11 peuvent aider à effectuer des contrôles de qualité, des tris et des comptages en temps réel pour s'assurer que seuls les produits parfaits arrivent jusqu'aux clients. L'automatisation de ce processus permet de gagner du temps, de réduire les coûts et les déchets, ce qui rend la production plus fluide et plus efficace.

Fig 5. Exemple d'utilisation de YOLO11 pour compter les produits sur une chaîne de montage.

‍

Principaux enseignements

L'inférence en temps réel aide les modèles d'IA à prendre des décisions instantanées, ce qui est crucial dans de nombreux secteurs. Qu'il s'agisse d'une voiture auto-conduite évitant un accident, d'un médecin analysant rapidement des scanners médicaux ou d'une usine détectant des défauts de produits, des réponses rapides et précises de l'IA font une grande différence.

En améliorant la vitesse et l'efficacité des modèles d'IA, nous pouvons créer des systèmes plus intelligents et plus fiables qui fonctionnent de manière transparente dans des situations réelles. À mesure que la technologie progresse, les solutions d'IA en temps réel continueront à façonner l'avenir, en rendant les processus quotidiens plus rapides, plus sûrs et plus efficaces.

Pour en savoir plus, visite notre dépôt GitHub et engage-toi auprès de notre communauté. Explore les innovations dans des secteurs comme l'IA dans les voitures auto-conduites et la vision par ordinateur dans l'agriculture sur nos pages de solutions. Découvre nos options de licence et donne vie à tes projets de vision artificielle.

Les inférences en temps réel dans les solutions d'IA de Vision ont un impact.

Qu'est-ce qu'une déduction d'IA ?

Comprendre les moteurs d'inférence

Problèmes causés par la latence de l'inférence