Controllo verde
Link copiato negli appunti

Migliorare la stima dei punti chiave della mano con Ultralytics YOLO11

Scopri la stima dei punti chiave della mano guidata dall'intelligenza artificiale con il supporto di Ultralytics YOLO11 per la stima della posa in applicazioni come il riconoscimento dei gesti in tempo reale.

Recentemente, gli interpreti del linguaggio dei segni al Super Bowl hanno guadagnato molta attenzione. Quando li guardi cantare la canzone del tuo artista preferito in TV, puoi capirli se conosci il linguaggio dei segni perché il tuo cervello elabora i movimenti delle loro mani. Ma cosa succederebbe se un computer potesse fare lo stesso? Grazie alle soluzioni di hand-tracking basate sull'intelligenza artificiale, è possibile per le macchine tracciare e interpretare i movimenti delle mani con una precisione impressionante.

Al centro di queste soluzioni c'è la computer vision, un sottocampo dell'IA che consente alle macchine di elaborare e comprendere le informazioni visive. Analizzando immagini e video, la Vision AI aiuta le macchine a rilevare gli oggetti, a seguire i movimenti e a riconoscere gesti complessi con una notevole precisione.

Ad esempio, i modelli di visione computerizzata come Ultralytics YOLO11 possono essere addestrati per rilevare e analizzare i punti chiave della mano in tempo reale utilizzando la stima della posa. In questo modo, questi modelli possono essere utilizzati per applicazioni come il riconoscimento dei gesti, la traduzione del linguaggio dei segni e le interazioni AR/VR. 

In questo articolo analizzeremo come YOLO11 consente il tracciamento della mano basato sull'intelligenza artificiale, i set di dati utilizzati per l'addestramento e come addestrare un modello personalizzato per la stima della posa della mano. Vedremo anche delle applicazioni reali. Iniziamo!

Comprendere il rilevamento dei punti chiave della mano basato sull'intelligenza artificiale

L'intelligenza artificiale può essere utilizzata per riconoscere e tracciare i movimenti della mano nei dati visivi identificando punti chiave come il polso, la punta delle dita e le articolazioni delle dita. Un approccio, noto come stima della posa, aiuta i computer a comprendere il movimento umano mappando i punti chiave e analizzando come cambiano nel tempo. Questo permette ai sistemi di intelligenza artificiale di interpretare la postura del corpo, i gesti e i modelli di movimento con grande precisione.

I modelli di visione computerizzata rendono possibile tutto ciò analizzando immagini o video per identificare i punti chiave della mano e seguirne il movimento. Una volta mappati questi punti, l'intelligenza artificiale può riconoscere i gesti analizzando le relazioni spaziali tra i punti chiave e il loro cambiamento nel tempo. 

Ad esempio, se la distanza tra il pollice e l'indice diminuisce, l'intelligenza artificiale può interpretarla come un movimento di pizzicamento. Allo stesso modo, tracciare il movimento dei punti chiave nelle sequenze aiuta a identificare gesti complessi della mano e a prevedere i movimenti futuri.

Figura 1. Un esempio di riconoscimento dei punti chiave di una mano utilizzando la computer vision.

È interessante notare che la stima della posa per il tracciamento della mano ha aperto interessanti possibilità, dal controllo a mani libere dei dispositivi intelligenti a una migliore precisione robotica e all'assistenza nelle applicazioni sanitarie. Con l'evoluzione dell'intelligenza artificiale e della computer vision, il tracciamento della mano avrà probabilmente un ruolo maggiore nel rendere la tecnologia più interattiva, accessibile e intuitiva nella vita di tutti i giorni.

Esplorazione di YOLO11 per la stima della posa

Prima di scoprire come creare una soluzione per il tracciamento della mano basata sull'intelligenza artificiale, diamo un'occhiata più da vicino alla stima della posa e a come YOLO11 supporta questa attività di computer vision. A differenza del rilevamento di oggetti standard, che identifica gli oggetti nella loro interezza, la stima della posa si concentra sul rilevamento di punti di riferimento chiave, come articolazioni, arti o bordi, per analizzare il movimento e la postura. 

In particolare, Ultralytics YOLO11 è stato progettato per la stima della posa in tempo reale. Sfruttando metodi top-down e bottom-up, rileva in modo efficiente le persone e stima i punti chiave in un unico passaggio, superando i modelli precedenti in velocità e precisione.

YOLO11 viene pre-addestrato sul dataset COCO-Pose ed è in grado di riconoscere i punti chiave del corpo umano, tra cui testa, spalle, gomiti, polsi, fianchi, ginocchia e caviglie. 

Figura 2. Utilizzo di YOLO11 per la stima della posa umana.

Oltre alla stima della posa umana, YOLO11 può essere addestrato in modo personalizzato per rilevare i punti chiave di una varietà di oggetti, sia animati che inanimati. Questa flessibilità rende YOLO11 un'ottima opzione per un'ampia gamma di applicazioni.

Una panoramica del set di dati Hand Keypoints

Il primo passo per l'addestramento personalizzato di un modello è la raccolta di dati e la loro annotazione o la ricerca di un dataset esistente che si adatti alle esigenze del progetto. Ad esempio, il dataset Hand Keypoints è un buon punto di partenza per l'addestramento dei modelli Vision AI per il tracciamento della mano e la stima della posa. Con 26.768 immagini annotate, elimina la necessità di etichettatura manuale. 

Può essere utilizzato per addestrare modelli come Ultralytics YOLO11 per imparare rapidamente a rilevare e tracciare i movimenti della mano. Il set di dati comprende 21 punti chiave per mano, che coprono il polso, le dita e le articolazioni. Inoltre, le annotazioni del set di dati sono state generate con Google MediaPipe, uno strumento per lo sviluppo di soluzioni basate sull'intelligenza artificiale per l'elaborazione dei media in tempo reale, garantendo un rilevamento preciso e affidabile dei punti chiave. 

Figura 3. I 21 punti chiave inclusi nel set di dati Hand Keypoints.

L'utilizzo di un set di dati strutturato come questo consente di risparmiare tempo e di concentrarsi sulla formazione e sulla messa a punto dei modelli invece di raccogliere ed etichettare i dati. Infatti, il dataset è già suddiviso in sottoinsiemi di formazione (18.776 immagini) e di convalida (7.992 immagini), il che rende facile la valutazione delle prestazioni del modello. 

Come addestrare YOLO11 per la stima della posa della mano

L'addestramento di YOLO11 per la stima della posa della mano è un processo semplice, soprattutto grazie al pacchettoUltralytics Python , che facilita l'impostazione e l'addestramento del modello. Poiché il set di dati Hand Keypoints è già supportato nella pipeline di addestramento, può essere utilizzato subito senza formattazioni aggiuntive, risparmiando tempo e fatica.

Ecco come funziona il processo di formazione:

  • Configurare l'ambiente: Il primo passo è installare il pacchetto Ultralytics Python .
  • Carica il dataset Hand Keypoints: YOLO11 supporta questo set di dati in modo nativo, quindi può essere scaricato e preparato automaticamente.
  • Usa un modello pre-addestrato: Puoi iniziare con un modello di stima della posa YOLO11 pre-addestrato, che aiuta a migliorare la precisione e a velocizzare il processo di addestramento.
  • Addestrare il modello: Il modello impara a rilevare e a tracciare i punti chiave della mano attraverso molteplici cicli di addestramento.
  • Monitoraggio delle prestazioni: Il pacchetto Ultralytics fornisce anche strumenti integrati per monitorare metriche chiave come l'accuratezza e la perdita, aiutando a garantire che il modello migliori nel tempo.
  • Salva e distribuisci: Una volta addestrato, il modello può essere esportato e utilizzato per applicazioni di tracciamento della mano in tempo reale.

Valutare il modello addestrato su misura

Seguendo le fasi di creazione di un modello personalizzato, noterai che il monitoraggio delle prestazioni è essenziale. Oltre a monitorare i progressi durante l'addestramento, è fondamentale valutare il modello al termine dell'addestramento per assicurarsi che rilevi e tracci accuratamente i punti chiave della mano. 

Le principali metriche di performance come l'accuratezza, i valori di perdita e la precisione media (mAP) aiutano a valutare le prestazioni del modello. Il pacchetto Ultralytics Python fornisce strumenti integrati per visualizzare i risultati e confrontare le previsioni con le annotazioni reali, rendendo più facile individuare le aree di miglioramento.

Per capire meglio le prestazioni del modello, puoi controllare i grafici di valutazione come le curve di perdita, i grafici precisione-richiamo e le matrici di confusione, che vengono generate automaticamente nei registri di addestramento. 

Questi grafici aiutano a identificare problemi come l'overfitting (quando il modello memorizza i dati di addestramento ma fatica con i nuovi dati) o l'underfitting (quando il modello non riesce ad apprendere i modelli in modo sufficientemente accurato) e a guidare le regolazioni per migliorare l'accuratezza. Inoltre, testare il modello su nuove immagini o video è importante per vedere come funziona in scenari reali.

Applicazioni delle soluzioni di tracciamento delle mani guidate dall'intelligenza artificiale

Vediamo quindi alcune delle applicazioni di maggior impatto della stima dei punti chiave a mano con Ultralytics YOLO11.

Riconoscimento dei gesti in tempo reale con YOLO11

Immaginiamo che tu possa regolare il volume del tuo televisore semplicemente agitando la mano o che tu possa navigare in un sistema domestico intelligente con un semplice passaggio di mano. Il riconoscimento dei gesti in tempo reale di YOLO11 rende possibili queste interazioni touch-free rilevando accuratamente i movimenti della mano in tempo reale. 

Funziona utilizzando telecamere AI per tracciare i punti chiave della tua mano e interpretare i gesti come comandi. Le telecamere con rilevamento della profondità, i sensori a infrarossi o anche le normali webcam catturano i movimenti della mano, mentre YOLO11 può elaborare i dati per riconoscere i diversi gesti. Ad esempio, questo sistema è in grado di distinguere tra uno swipe per cambiare canzone, un pinch per zoomare o un movimento circolare per regolare il volume.

Rilevamento dei punti chiave della mano basato sull'intelligenza artificiale per il riconoscimento del linguaggio dei segni

Le soluzioni AI per il tracciamento delle mani possono supportare la comunicazione senza soluzione di continuità tra una persona sorda e una persona che non conosce il linguaggio dei segni. Ad esempio, i dispositivi intelligenti integrati con fotocamere e YOLO11 possono essere utilizzati per tradurre istantaneamente il linguaggio dei segni in testo o parlato. 

Grazie a progressi come YOLO11, gli strumenti di traduzione della lingua dei segni stanno diventando sempre più precisi e accessibili. Questo ha un impatto su applicazioni come le tecnologie assistive, i servizi di traduzione dal vivo e le piattaforme educative. L'intelligenza artificiale può aiutare a colmare le lacune comunicative e a promuovere l'inclusività nei luoghi di lavoro, nelle scuole e negli spazi pubblici.

Visione artificiale per il tracciamento della mano: Migliorare le esperienze AR e VR

Hai mai giocato a un gioco di realtà virtuale (VR) in cui puoi afferrare gli oggetti senza usare un controller? Il tracciamento della mano, basato sulla computer vision, rende possibile tutto questo, consentendo agli utenti di interagire in modo naturale negli ambienti di realtà aumentata (AR) e VR. 

Figura 4. Il tracciamento della mano è una parte fondamentale delle applicazioni AR e VR.

Con la stima dei punti chiave della mano grazie a modelli come Ultralytics YOLO11, l'intelligenza artificiale traccia i movimenti in tempo reale, consentendo gesti come pizzicare, afferrare e scorrere. Questo migliora i giochi, la formazione virtuale e la collaborazione a distanza, rendendo le interazioni più intuitive. Con il miglioramento della tecnologia di tracciamento delle mani, l'AR e la VR saranno ancora più coinvolgenti e realistiche. 

Punti di forza

La stima dei punti chiave della mano con Ultralytics YOLO11 rende più accessibili e affidabili le soluzioni di hand-tracking guidate dall'AI. Dal riconoscimento dei gesti in tempo reale all'interpretazione del linguaggio dei segni e alle applicazioni AR/VR, la computer vision sta aprendo nuove possibilità nell'interazione uomo-computer.

Inoltre, i processi di formazione personalizzata e di messa a punto semplificati stanno aiutando gli sviluppatori a costruire modelli efficienti per vari usi nel mondo reale. Con l'evoluzione della tecnologia di visione artificiale, possiamo aspettarci ancora più innovazioni in settori come la sanità, la robotica, i giochi e la sicurezza.

Partecipa alla nostra comunità ed esplora i progressi dell'IA sul nostro repository GitHub. Scopri l'impatto dell'IA nel settore manifatturiero e della computer vision nel settore sanitario attraverso le nostre pagine dedicate alle soluzioni. Esplora i nostri piani di licenza e inizia il tuo viaggio nell'IA oggi stesso!

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico