Contrôle vert
Lien copié dans le presse-papiers

Améliorer l'estimation des points clés de la main avec Ultralytics YOLO11

Explore l'estimation des points clés de la main pilotée par l'IA grâce à la prise en charge par Ultralytics YOLO11 de l'estimation de la pose dans des applications telles que la reconnaissance gestuelle en temps réel.

Récemment, les interprètes en langue des signes présents au Super Bowl ont attiré beaucoup d'attention. Lorsque tu les regardes chanter la chanson de ton artiste préféré à la télévision, tu peux les comprendre si tu connais la langue des signes car ton cerveau traite les mouvements de leurs mains. Et si un ordinateur pouvait faire la même chose ? Grâce aux solutions de suivi des mains pilotées par l'IA, il est possible pour les machines de suivre et d'interpréter les mouvements des mains avec une précision impressionnante.

Au cœur de ces solutions se trouve la vision par ordinateur, un sous-domaine de l'IA qui permet aux machines de traiter et de comprendre les informations visuelles. En analysant les images et les vidéos, la vision artificielle les aide à détecter des objets, à suivre des mouvements et à reconnaître des gestes complexes avec une précision remarquable.

Par exemple, les modèles de vision par ordinateur comme Ultralytics YOLO11 peuvent être entraînés à détecter et à analyser les points clés de la main en temps réel à l'aide de l'estimation de la pose. Ce faisant, ces modèles peuvent être utilisés pour des applications telles que la reconnaissance des gestes, la traduction en langue des signes et les interactions AR/VR. 

Dans cet article, nous allons explorer comment YOLO11 permet le suivi des mains basé sur l'IA, les ensembles de données utilisés pour l'entraînement, et comment entraîner sur mesure un modèle pour l'estimation de la pose de la main. Nous nous pencherons également sur des applications du monde réel. C'est parti !

Comprendre la détection des points clés de la main basée sur l'IA

L'IA peut être utilisée pour reconnaître et suivre les mouvements de la main dans les données visuelles en identifiant des points clés comme le poignet, le bout des doigts et les articulations des doigts. Une approche, connue sous le nom d'estimation de la pose, aide les ordinateurs à comprendre les mouvements humains en cartographiant les points clés et en analysant la façon dont ils changent au fil du temps. Cela permet aux systèmes d'intelligence artificielle d'interpréter la posture du corps, les gestes et les schémas de mouvement avec une grande précision.

Les modèles de vision par ordinateur rendent cela possible en analysant des images ou des vidéos pour identifier des points clés sur la main et suivre leur mouvement. Une fois ces points cartographiés, l'IA peut reconnaître les gestes en analysant les relations spatiales entre les points clés et leur évolution dans le temps. 

Par exemple, si la distance entre un pouce et un index diminue, l'IA peut l'interpréter comme un mouvement de pincement. De même, le suivi de la façon dont les points clés se déplacent dans les séquences permet d'identifier les gestes complexes de la main et même de prédire les mouvements futurs.

Fig 1. Exemple de reconnaissance des points clés d'une main à l'aide de la vision par ordinateur.

Il est intéressant de noter que l'estimation de la pose pour le suivi des mains a ouvert des possibilités passionnantes, du contrôle mains libres des appareils intelligents à l'amélioration de la précision robotique et à l'assistance dans les applications de soins de santé. À mesure que l'IA et la vision par ordinateur continuent d'évoluer, le suivi des mains jouera probablement un rôle plus important pour rendre la technologie plus interactive, plus accessible et plus intuitive dans la vie de tous les jours.

Exploration de YOLO11 pour l'estimation de la pose

Avant de nous plonger dans la création d'une solution pour le suivi des mains basé sur l'IA, examinons de plus près l'estimation de la pose et la façon dont YOLO11 prend en charge cette tâche de vision par ordinateur. Contrairement à la détection d'objets standard, qui identifie des objets entiers, l'estimation de la pose se concentre sur la détection de points de repère clés - tels que les articulations, les membres ou les bords - pour analyser le mouvement et la posture. 

Plus précisément, Ultralytics YOLO11 est conçu pour l'estimation de la pose en temps réel. En s'appuyant sur des méthodes descendantes et ascendantes, il détecte efficacement les personnes et estime les points clés en une seule étape, surpassant les modèles précédents en termes de vitesse et de précision.

YOLO11 est préformé sur l'ensemble de données COCO-Pose et peut reconnaître les points clés du corps humain, notamment la tête, les épaules, les coudes, les poignets, les hanches, les genoux et les chevilles. 

Fig 2. Utilisation de YOLO11 pour l'estimation de la pose humaine.

Au-delà de l'estimation de la pose humaine, YOLO11 peut être entraîné sur mesure pour détecter des points clés sur une variété d'objets, animés ou inanimés. Cette flexibilité fait de YOLO11 une excellente option pour un large éventail d'applications.

Un aperçu de l'ensemble de données Hand Keypoints

La première étape de l'entraînement personnalisé d'un modèle consiste à rassembler des données et à les annoter ou à trouver un ensemble de données existant qui correspond aux besoins du projet. Par exemple, l'ensemble de données Hand Keypoints est un bon point de départ pour entraîner les modèles Vision AI au suivi des mains et à l'estimation de la pose. Avec 26 768 images annotées, il élimine le besoin d'étiquetage manuel. 

Il peut être utilisé pour former des modèles comme Ultralytics YOLO11 afin d'apprendre rapidement à détecter et à suivre les mouvements de la main. L'ensemble de données comprend 21 points clés par main, couvrant le poignet, les doigts et les articulations. De plus, les annotations de l'ensemble de données ont été générées avec Google MediaPipe, un outil permettant de développer des solutions alimentées par l'IA pour le traitement des médias en temps réel, ce qui garantit une détection précise et fiable des points clés. 

Fig 3. Les 21 points clés inclus dans l'ensemble de données Hand Keypoints.

L'utilisation d'un ensemble de données structuré comme celui-ci permet de gagner du temps et laisse les développeurs se concentrer sur l'entraînement et l'affinement de leurs modèles au lieu de collecter et d'étiqueter des données. En fait, l'ensemble de données est déjà divisé en sous-ensembles d'entraînement (18 776 images) et de validation (7 992 images), ce qui facilite l'évaluation des performances du modèle. 

Comment former YOLO11 à l'estimation de la pose de la main ?

L'entraînement de YOLO11 pour l'estimation de la pose de la main est un processus simple, en particulier avec le packagePython Ultralytics , qui facilite la configuration et l'entraînement du modèle. Comme le jeu de données Hand Keypoints est déjà pris en charge dans le pipeline de formation, il peut être utilisé immédiatement sans formatage supplémentaire, ce qui permet d'économiser du temps et des efforts.

Voici comment fonctionne le processus de formation :

  • Met en place l'environnement: La première étape consiste à installer le paquet Ultralytics Python .
  • Charge le jeu de données des points clés de la main: YOLO11 prend en charge ce jeu de données de façon native, il peut donc être téléchargé et préparé automatiquement.
  • Utilise un modèle pré-entraîné : Tu peux commencer avec un modèle d'estimation de pose YOLO11 pré-entraîné, ce qui permet d'améliorer la précision et d'accélérer le processus d'entraînement.
  • Entraîne le modèle : Le modèle apprend à détecter et à suivre les points clés de la main en passant par plusieurs cycles d'entraînement.
  • Surveille les performances : Le progiciel Ultralytics fournit également des outils intégrés pour suivre les paramètres clés tels que la précision et les pertes, ce qui permet de s'assurer que le modèle s'améliore au fil du temps.
  • Sauvegarde et déploie : Une fois formé, le modèle peut être exporté et utilisé pour des applications de suivi des mains en temps réel.

Évaluer ton modèle d'entraînement personnalisé

En suivant les étapes de la création d'un modèle personnalisé, tu remarqueras que le suivi des performances est essentiel. En plus de suivre les progrès pendant la formation, il est essentiel d'évaluer le modèle par la suite pour s'assurer qu'il détecte et suit avec précision les points clés de la main. 

Des mesures de performance clés comme l'exactitude, les valeurs de perte et la précision moyenne (mAP) permettent d'évaluer les performances du modèle. Le package Ultralytics Python fournit des outils intégrés pour visualiser les résultats et comparer les prédictions avec des annotations réelles, ce qui permet de repérer plus facilement les points à améliorer.

Pour mieux comprendre les performances du modèle, tu peux vérifier les graphiques d'évaluation tels que les courbes de perte, les tracés de précision-rappel et les matrices de confusion, qui sont automatiquement générés dans les journaux d'entraînement. 

Ces graphiques permettent d'identifier des problèmes tels que le surajustement (lorsque le modèle mémorise les données d'entraînement mais a du mal avec les nouvelles données) ou le sous-ajustement (lorsque le modèle n'arrive pas à apprendre les modèles suffisamment bien pour être performant) et de guider les ajustements afin d'améliorer la précision. Il est également important de tester le modèle sur de nouvelles images ou vidéos pour voir s'il fonctionne bien dans des scénarios réels.

Applications des solutions de suivi des mains pilotées par l'IA.

Ensuite, parcourons quelques-unes des applications les plus impactantes de l'estimation des points clés de la main avec Ultralytics YOLO11.

Reconnaissance des gestes en temps réel avec YOLO11

Imaginons que tu puisses régler le volume de ton téléviseur par un simple geste de la main ou naviguer dans un système de maison intelligente d'un simple glissement dans l'air. La reconnaissance gestuelle en temps réel alimentée par YOLO11 rend ces interactions sans contact possibles en détectant avec précision les mouvements de la main en temps réel. 

Cela fonctionne en utilisant des caméras d'IA pour suivre les points clés de ta main et interpréter les gestes comme des commandes. Les caméras à détection de profondeur, les capteurs infrarouges ou même les webcams ordinaires capturent les mouvements de la main, tandis que YOLO11 peut traiter les données pour reconnaître différents gestes. Par exemple, un tel système peut faire la différence entre un swipe pour changer de chanson, un pinch pour zoomer ou un mouvement circulaire pour régler le volume.

Détection des points clés de la main basée sur l'IA pour la reconnaissance de la langue des signes.

Les solutions d'IA pour le suivi des mains peuvent favoriser une communication transparente entre une personne sourde et une personne qui ne connaît pas la langue des signes. Par exemple, les appareils intelligents intégrés à des caméras et à YOLO11 peuvent être utilisés pour traduire instantanément la langue des signes en texte ou en parole. 

Grâce à des avancées comme YOLO11, les outils de traduction en langue des signes deviennent plus précis et plus accessibles. Cela a un impact sur des applications telles que les technologies d'assistance, les services de traduction en direct et les plateformes éducatives. L'IA peut aider à combler les lacunes en matière de communication et à promouvoir l'inclusivité sur les lieux de travail, dans les écoles et dans les espaces publics.

Vision par ordinateur pour le suivi des mains : Améliorer les expériences AR et VR

As-tu déjà joué à un jeu de réalité virtuelle (RV) dans lequel tu pouvais saisir des objets sans utiliser de manette ? Le suivi des mains alimenté par la vision par ordinateur rend cela possible en permettant aux utilisateurs d'interagir naturellement dans les environnements de réalité augmentée (RA) et de RV. 

Fig 4. Le suivi des mains est un élément clé des applications de réalité augmentée et de réalité virtuelle.

Grâce à l'estimation des points clés de la main à l'aide de modèles comme Ultralytics YOLO11, l'IA suit les mouvements en temps réel, ce qui permet des gestes comme le pincement, la saisie et le glissement. Cela améliore les jeux, la formation virtuelle et la collaboration à distance, en rendant les interactions plus intuitives. À mesure que la technologie de suivi des mains s'améliore, la RA et la RV seront encore plus immersives et réalistes. 

Principaux enseignements

L'estimation des points clés de la main avec Ultralytics YOLO11 rend les solutions de suivi de la main pilotées par l'IA plus accessibles et plus fiables. De la reconnaissance gestuelle en temps réel à l'interprétation de la langue des signes en passant par les applications AR/VR, la vision par ordinateur ouvre de nouvelles possibilités en matière d'interaction homme-machine.

De plus, les processus rationalisés de formation personnalisée et de mise au point aident les développeurs à construire des modèles efficaces pour diverses utilisations dans le monde réel. Au fur et à mesure que la technologie de la vision par ordinateur évolue, nous pouvons nous attendre à encore plus d'innovations dans des domaines tels que les soins de santé, la robotique, les jeux et la sécurité.

Engage-toi auprès de notre communauté et explore les avancées en matière d'IA sur notre dépôt GitHub. Découvre l'impact de l'IA dans la fabrication et de la vision par ordinateur dans les soins de santé grâce à nos pages de solutions. Explore nos plans de licence et commence ton voyage dans l'IA dès aujourd'hui !

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.