Vois pourquoi le FPS dans la vision par ordinateur est important et comment il affecte la détection d'objets en temps réel, l'analyse vidéo et les applications alimentées par l'IA.
Regarder un ralenti de ton moment sportif préféré, où chaque détail est clair, est très différent de regarder une vidéo de surveillance qui semble généralement saccadée et difficile à suivre. Le principal détail technique à l'origine de ces différences est le nombre d'images par seconde (FPS), qui correspond au nombre d'images affichées par seconde dans une vidéo. Un nombre d'images par seconde élevé donne des mouvements fluides et réalistes, tandis qu'un nombre d'images par seconde plus faible peut donner lieu à des séquences saccadées et moins détaillées.
Ce concept a un impact direct sur la vision par ordinateur, une branche de l'IA qui permet aux machines d'interpréter et d'analyser les données visuelles de façon similaire à ce que font les humains. Dans la vision par ordinateur, un FPS plus élevé signifie que les systèmes peuvent capturer plus d'informations à chaque seconde, ce qui améliore la précision de la détection et du suivi des objets en temps réel.
Dans cet article, nous allons explorer les aspects techniques du SFP et la façon dont il est lié aux applications de vision par ordinateur. Commençons !
Disons que tu joues à un jeu de course : à 60 FPS, chaque virage semble fluide et réactif, mais à 20 FPS, les commandes traînent et il est plus difficile d'esquiver les obstacles. En termes simples, tu peux considérer le taux d'images par seconde comme le nombre d'images fixes qui sont affichées chaque seconde. Plus il y a d'images par seconde, plus les mouvements semblent fluides et naturels, tandis que moins il y a d'images, plus les mouvements semblent saccadés.
Tout comme dans les jeux, le taux de rafraîchissement est un élément clé des applications de vision par ordinateur. Un taux d'images par seconde élevé permet de suivre les objets en douceur à l'aide de Vision AI, tandis qu'un taux d'images par seconde plus faible peut faire passer à côté de certains détails.
Par exemple, dans le domaine de l'analyse sportive, les caméras alimentées par l'IA ont besoin d'un FPS plus élevé pour pouvoir suivre les passes rapides, les mouvements des joueurs et les trajectoires du ballon. Un FPS plus faible pourrait conduire à manquer un contact important entre le pied et le ballon ou un changement de direction rapide, ce qui aurait un impact sur la précision de l'analyse.
De même, dans le domaine de la surveillance du trafic, les systèmes s'appuient sur un taux d'images par seconde élevé pour détecter les véhicules en excès de vitesse et les changements de voie en temps réel. Le choix du bon taux d'images par seconde dépend des exigences spécifiques de chaque application de vision par ordinateur, en équilibrant les performances, l'efficacité et la clarté visuelle.
Maintenant que nous avons discuté de ce qu'est le FPS et de son utilisation dans la vision par ordinateur, plongeons dans ses aspects techniques - en commençant par la façon de calculer le FPS d'une vidéo.
En divisant le nombre total d'images par la durée en secondes, tu obtiens le nombre d'images par seconde d'une vidéo. Par exemple, si une vidéo comporte 96 images sur 4 secondes, cela donne 24 FPS - ce qui signifie que 24 images sont affichées chaque seconde - alors que 32 images sur 4 secondes donnent 8 FPS. Les bibliothèques Python comme OpenCV peuvent être utilisées pour extraire les métadonnées vidéo, compter les images et calculer automatiquement le nombre d'images par seconde, ce qui simplifie le processus d'analyse vidéo.
Cependant, le calcul du nombre d'images par seconde ne suffit pas pour prendre des décisions techniques lors de l'élaboration de solutions de vision par ordinateur. Il est également important de prendre en compte les différents facteurs qui peuvent affecter le taux de rafraîchissement effectif, tels que les capacités du matériel, les optimisations logicielles et les conditions environnementales.
Voici un examen plus approfondi de ces facteurs :
Des modèles d'IA comme Ultralytics YOLO11 qui prennent en charge les tâches de vision par ordinateur en temps réel peuvent être utilisés pour analyser des vidéos avec des fréquences d'images élevées. Cette capacité en temps réel est essentielle pour des applications telles que la conduite autonome, la surveillance et la robotique, où même de petits retards peuvent entraîner des erreurs importantes.
Passons en revue quelques applications Vision AI du monde réel où un FPS élevé est essentiel pour la précision et les performances.
Les systèmes de surveillance des zones à forte circulation, comme les autoroutes, utilisent un taux d'images par seconde élevé pour capturer les moindres détails et s'assurer que les véhicules qui se déplacent rapidement sont clairement documentés. Cette clarté est essentielle pour les systèmes de reconnaissance automatique des plaques d'immatriculation (RAPI ), qui s'appuient sur des séquences de bonne qualité pour identifier les véhicules avec précision.
Dans ces systèmes, des modèles comme YOLO11 peuvent être utilisés pour détecter les plaques d'immatriculation directement à partir du flux vidéo. Une fois la plaque détectée, la reconnaissance optique de caractères (OCR), qui convertit les images de texte en caractères lisibles par une machine, est utilisée pour lire les détails de la plaque. Ce processus permet une identification rapide et précise des véhicules, améliorant ainsi le respect du code de la route et la sécurité en général.
Prends l'exemple d'une voiture autopilotée à un panneau d'arrêt, qui analyse soigneusement son environnement pour décider si elle peut avancer en toute sécurité. Cette voiture doit prendre des décisions quasi instantanées, ce qui nécessite de capturer et de traiter les données visuelles en temps réel.
Si le véhicule autonome est équipé de caméras capables de capturer des séquences à un taux d'images par seconde plus élevé, il reçoit un flux d'images plus continu et plus détaillé. Cet apport visuel amélioré permet à la voiture de détecter rapidement les obstacles, les piétons et les autres véhicules. Elle permet au véhicule de réagir rapidement à tout changement dans son environnement.
Si les caméras traitent les images à un taux d'images par seconde inférieur, le véhicule risque de recevoir une vue plus hachée et moins détaillée. Cela pourrait retarder son temps de réponse, augmenter le risque de manquer des informations critiques et potentiellement compromettre la sécurité.
Capturer chaque mouvement avec précision est crucial dans les sports, où les décisions prises en une fraction de seconde peuvent faire toute la différence entre la victoire et la défaite. La technologie qui prend en charge un taux d'images par seconde plus élevé nous permet d'enregistrer chaque petit détail du mouvement, et les entraîneurs, les analystes et les athlètes peuvent revoir les jeux au ralenti sans en perdre une miette. Elle aide également les arbitres à prendre des décisions plus précises dans des sports comme le tennis, le football et le cricket en leur offrant une vue claire de l'action, image par image.
Par exemple, une étude intéressante sur le volley-ball a analysé comment l'utilisation d'un FPS plus élevé améliore l'évaluation des performances. En passant de 30 à 240 FPS, la clarté des mouvements et le suivi des objets se sont considérablement améliorés. La précision de l'analyse des pointes s'est également améliorée, aidant les entraîneurs à comprendre plus précisément le positionnement des mains, les points de contact avec le ballon et la mécanique des sauts. En plus de cela, l'étude a révélé qu'un FPS plus élevé réduisait le flou des mouvements, ce qui facilite l'analyse des services et des réactions défensives.
Toutes les applications de vision par ordinateur ne nécessitent pas d'enregistrer des séquences à un taux d'images par seconde plus élevé. Dans de nombreux cas, un taux d'images par seconde plus faible est suffisant pour obtenir des résultats précis, en fonction de la tâche. Voici quelques domaines clés dans lesquels il est préférable d'utiliser un taux d'images par seconde plus faible :
Pour sélectionner le FPS idéal, il faut trouver un équilibre entre les performances et les limites du système. Voici quelques considérations à garder à l'esprit lors de l'optimisation du FPS pour les applications d'apprentissage profond :
Les progrès de l'IA et de l'optimisation du matériel permettent d'atteindre des taux de rafraîchissement plus élevés, même dans des environnements aux ressources limitées. Par exemple, des secteurs comme le cinéma, le sport et la robotique peuvent bénéficier d'une gestion plus intelligente de la fréquence d'images, où les systèmes ajustent dynamiquement le nombre d'images par seconde en fonction de la complexité du mouvement et de la puissance de traitement. L'interpolation d'images pilotée par l'IA améliore également la fluidité des vidéos en générant des images supplémentaires en temps réel.
Entre-temps, une avancée récente de NVIDIA permet de pousser encore plus loin les performances en matière de FPS. DLSS 4 (Deep Learning Super Sampling) introduit la génération d'images multiples, qui utilise l'IA pour prédire et créer des images supplémentaires. Cela permet de booster les taux de trame jusqu'à 8 fois tout en réduisant la charge de travail du système.
En laissant l'IA s'occuper d'une partie du rendu, DLSS 4 rend les visuels plus fluides sans solliciter davantage le matériel, ce qui améliore à la fois les performances et l'efficacité.
Le nombre d'images par seconde est plus qu'une simple mesure de la fluidité des images ; il permet de prendre des décisions en temps réel dans les domaines de l'intelligence artificielle et de la vision par ordinateur. Chaque image d'une vidéo capture des données essentielles, permettant aux machines de suivre les objets, d'analyser les mouvements et de réagir aux environnements dynamiques. Qu'il s'agisse de voitures auto-conduites qui évitent les obstacles ou de systèmes de surveillance qui détectent les menaces instantanément, le bon FPS garantit la précision et l'efficacité.
L'avenir des SPF ne consiste pas seulement à augmenter le nombre d'images par seconde, mais aussi à les optimiser intelligemment. Cette évolution rendra les systèmes de vision par ordinateur plus rapides, plus innovants et plus économes en ressources dans divers secteurs d'activité.
Tu veux en savoir plus sur l'IA ? Explore notre dépôt GitHub et rejoins notre communauté. Prêt à lancer tes propres projets de vision par ordinateur ? Jette un œil à nos options de licence. Découvre comment la vision par ordinateur dans le domaine de la santé améliore l'efficacité et explore l'impact de l'IA dans le domaine de la fabrication en visitant nos pages de solutions !
Commence ton voyage avec le futur de l'apprentissage automatique.