Cheque verde
Enlace copiado en el portapapeles

Mejora de la estimación de los puntos clave de la mano con Ultralytics YOLO11

Explora la estimación de puntos clave de la mano basada en IA con la compatibilidad de Ultralytics YOLO11 con la estimación de la pose en aplicaciones como el reconocimiento de gestos en tiempo real.

Recientemente, los intérpretes de lengua de signos de la Super Bowl han acaparado mucha atención. Cuando les ves cantar la canción de tu artista favorito en la tele, puedes entenderles si conoces el lenguaje de signos porque tu cerebro procesa los movimientos de sus manos. Pero, ¿y si un ordenador pudiera hacer lo mismo? Gracias a las soluciones de seguimiento de manos basadas en IA, es posible que las máquinas sigan e interpreten los movimientos de las manos con una precisión impresionante.

El núcleo de estas soluciones es la visión por ordenador, un subcampo de la IA que permite a las máquinas procesar y comprender la información visual. Al analizar imágenes y vídeos, la IA de visión les ayuda a detectar objetos, seguir movimientos y reconocer gestos complejos con notable precisión.

Por ejemplo, modelos de visión por ordenador como Ultralytics YOLO11 pueden entrenarse para detectar y analizar los puntos clave de la mano en tiempo real mediante la estimación de la postura. De este modo, estos modelos pueden utilizarse para aplicaciones como el reconocimiento de gestos, la traducción del lenguaje de signos y las interacciones AR/VR. 

En este artículo, exploraremos cómo YOLO11 permite el seguimiento de la mano basado en IA, los conjuntos de datos utilizados para el entrenamiento y cómo entrenar de forma personalizada un modelo para la estimación de la pose de la mano. También veremos aplicaciones del mundo real. ¡Vamos a empezar!

Comprender la detección de puntos clave de la mano basada en IA

La IA puede utilizarse para reconocer y seguir los movimientos de la mano en datos visuales, identificando puntos clave como la muñeca, las puntas de los dedos y las articulaciones de los dedos. Un enfoque, conocido como estimación de la postura, ayuda a los ordenadores a comprender el movimiento humano mapeando los puntos clave y analizando cómo cambian con el tiempo. Esto permite a los sistemas de IA interpretar la postura corporal, los gestos y los patrones de movimiento con gran precisión.

Los modelos de visión por ordenador lo hacen posible analizando imágenes o vídeos para identificar puntos clave en la mano y seguir su movimiento. Una vez mapeados estos puntos, la IA puede reconocer los gestos analizando las relaciones espaciales entre los puntos clave y cómo cambian con el tiempo. 

Por ejemplo, si la distancia entre el pulgar y el índice disminuye, la IA puede interpretarlo como un movimiento de pellizco. Del mismo modo, seguir cómo se mueven los puntos clave en secuencias ayuda a identificar gestos complejos de la mano e incluso a predecir movimientos futuros.

Fig. 1. Ejemplo de reconocimiento de los puntos clave de una mano mediante visión por ordenador.

Curiosamente, la estimación de la postura para el seguimiento de las manos ha abierto posibilidades apasionantes, desde el control manos libres de dispositivos inteligentes hasta la mejora de la precisión robótica y la asistencia en aplicaciones sanitarias. A medida que la IA y la visión por ordenador sigan evolucionando, es probable que el seguimiento de la mano desempeñe un papel más importante a la hora de hacer que la tecnología sea más interactiva, accesible e intuitiva en la vida cotidiana.

Explorando YOLO11 para la estimación de la pose

Antes de sumergirnos en cómo crear una solución para el seguimiento de manos basado en IA, veamos más de cerca la estimación de la pose y cómo YOLO11 soporta esta tarea de visión por ordenador. A diferencia de la detección de objetos estándar, que identifica objetos enteros, la estimación de la pose se centra en detectar puntos de referencia clave -como articulaciones, extremidades o bordes- para analizar el movimiento y la postura. 

En concreto, Ultralytics YOLO11 está diseñado para la estimación de la pose en tiempo real. Aprovechando métodos descendentes y ascendentes, detecta eficazmente a las personas y estima los puntos clave en un solo paso, superando a los modelos anteriores en velocidad y precisión.

YOLO11 viene preentrenado con el conjunto de datos COCO-Pose y puede reconocer puntos clave del cuerpo humano, como la cabeza, los hombros, los codos, las muñecas, las caderas, las rodillas y los tobillos. 

Fig. 2. Utilización de YOLO11 para la estimación de la pose humana.

Más allá de la estimación de la pose humana, YOLO11 puede entrenarse a medida para detectar puntos clave en diversos objetos, tanto animados como inanimados. Esta flexibilidad hace de YOLO11 una gran opción para una amplia gama de aplicaciones.

Una visión general del conjunto de datos Hand Keypoints

El primer paso en el entrenamiento personalizado de un modelo es recopilar datos y anotarlos o encontrar un conjunto de datos existente que se ajuste a las necesidades del proyecto. Por ejemplo, el conjunto de datos Hand Keypoints es un buen punto de partida para entrenar modelos de Vision AI para el seguimiento de manos y la estimación de poses. Con 26.768 imágenes anotadas, elimina la necesidad de etiquetado manual. 

Puede utilizarse para entrenar modelos como Ultralytics YOLO11 para aprender rápidamente a detectar y seguir los movimientos de la mano. El conjunto de datos incluye 21 puntos clave por mano, que abarcan la muñeca, los dedos y las articulaciones. Además, las anotaciones del conjunto de datos se generaron con Google MediaPipe, una herramienta para desarrollar soluciones basadas en IA para el procesamiento de medios en tiempo real, lo que garantiza una detección precisa y fiable de los puntos clave. 

Fig. 3. Los 21 puntos clave incluidos en el conjunto de datos Puntos Clave de la Mano.

Utilizar un conjunto de datos estructurado como éste ahorra tiempo y permite a los desarrolladores centrarse en entrenar y afinar sus modelos en lugar de recopilar y etiquetar datos. De hecho, el conjunto de datos ya está dividido en subconjuntos de entrenamiento (18.776 imágenes) y validación (7.992 imágenes), lo que facilita la evaluación del rendimiento del modelo. 

Cómo entrenar a YOLO11 para la estimación de la postura de la mano

Entrenar YOLO11 para la estimación de la pose de la mano es un proceso sencillo, especialmente con el paquetePython Ultralytics , que facilita la configuración y el entrenamiento del modelo. Como el conjunto de datos Hand Keypoints ya es compatible con el proceso de entrenamiento, puede utilizarse inmediatamente sin formateo adicional, lo que ahorra tiempo y esfuerzo.

Así es como funciona el proceso de formación:

  • Configura el entorno: El primer paso es instalar el paquetePython Ultralytics .
  • Carga el conjunto de datos Puntos Clave de la Mano: YOLO11 admite este conjunto de datos de forma nativa, por lo que puede descargarse y prepararse automáticamente.
  • Utiliza un modelo preentrenado: Puedes empezar con un modelo de estimación de pose YOLO11 preentrenado, que ayuda a mejorar la precisión y acelera el proceso de entrenamiento.
  • Entrena el modelo: El modelo aprende a detectar y seguir los puntos clave de la mano pasando por múltiples ciclos de entrenamiento.
  • Supervisa el rendimiento: El paquete Ultralytics también proporciona herramientas integradas para realizar un seguimiento de métricas clave como la precisión y las pérdidas, lo que ayuda a garantizar que el modelo mejora con el tiempo.
  • Guardar y desplegar: Una vez entrenado, el modelo puede exportarse y utilizarse para aplicaciones de seguimiento de manos en tiempo real.

Evaluar tu modelo entrenado a medida

Siguiendo los pasos para crear un modelo personalizado, te darás cuenta de que es esencial controlar el rendimiento. Junto con el seguimiento del progreso durante el entrenamiento, la evaluación posterior del modelo es crucial para asegurarse de que detecta y rastrea con precisión los puntos clave de la mano. 

Las métricas clave de rendimiento, como la exactitud, los valores de pérdida y la precisión media (mAP), ayudan a evaluar el rendimiento del modelo. El paquete Ultralytics Python proporciona herramientas integradas para visualizar los resultados y comparar las predicciones con anotaciones reales, lo que facilita la detección de áreas susceptibles de mejora.

Para comprender mejor el rendimiento del modelo, puedes consultar los gráficos de evaluación, como las curvas de pérdida, los gráficos de precisión-recuerdo y las matrices de confusión, que se generan automáticamente en los registros de entrenamiento. 

Estos gráficos ayudan a identificar problemas como la sobreadaptación (cuando el modelo memoriza los datos de entrenamiento pero tiene dificultades con los datos nuevos) o la inadaptación (cuando el modelo no aprende los patrones lo suficientemente bien como para funcionar con precisión) y orientan los ajustes para mejorar la precisión. Además, probar el modelo con nuevas imágenes o vídeos es importante para ver lo bien que funciona en situaciones reales.

Aplicaciones de las soluciones de seguimiento de manos basadas en IA

A continuación, vamos a recorrer algunas de las aplicaciones más impactantes de la estimación de puntos clave a mano con Ultralytics YOLO11.

Reconocimiento de gestos en tiempo real con YOLO11

Digamos que puedes ajustar el volumen de tu televisor simplemente agitando la mano o navegar por un sistema doméstico inteligente con un simple barrido en el aire. El reconocimiento de gestos en tiempo real de YOLO11 hace posibles estas interacciones sin contacto al detectar con precisión los movimientos de la mano en tiempo real. 

Funciona utilizando cámaras de IA para rastrear puntos clave de tu mano e interpretar los gestos como órdenes. Las cámaras de detección de profundidad, los sensores de infrarrojos o incluso las cámaras web normales captan los movimientos de la mano, mientras que YOLO11 puede procesar los datos para reconocer diferentes gestos. Por ejemplo, un sistema de este tipo puede diferenciar entre un deslizamiento para cambiar de canción, un pellizco para hacer zoom o un movimiento circular para ajustar el volumen.

Detección de puntos clave de la mano basada en IA para el reconocimiento del lenguaje de signos

Las soluciones de IA para el seguimiento de las manos pueden facilitar una comunicación fluida entre una persona sorda y otra que no conozca el lenguaje de signos. Por ejemplo, los dispositivos inteligentes integrados con cámaras y YOLO11 pueden utilizarse para traducir instantáneamente la lengua de signos a texto o voz. 

Gracias a avances como YOLO11, las herramientas de traducción de la lengua de signos son cada vez más precisas y accesibles. Esto afecta a aplicaciones como la tecnología de asistencia, los servicios de traducción en directo y las plataformas educativas. La IA puede ayudar a salvar las brechas de comunicación y promover la inclusión en los lugares de trabajo, las escuelas y los espacios públicos.

Visión por ordenador para el seguimiento de la mano: Mejorando las experiencias de RA y RV

¿Has jugado alguna vez a un juego de realidad virtual (RV) en el que pudieras coger objetos sin utilizar un mando? El seguimiento de las manos mediante visión por ordenador lo hace posible, permitiendo a los usuarios interactuar de forma natural en entornos de realidad aumentada (RA) y RV. 

Fig. 4. El seguimiento de las manos es una parte clave de las aplicaciones de RA y RV.

Con la estimación de los puntos clave de la mano mediante modelos como Ultralytics YOLO11, la IA rastrea los movimientos en tiempo real, permitiendo gestos como pellizcar, agarrar y deslizar. Esto mejora los juegos, la formación virtual y la colaboración a distancia, haciendo que las interacciones sean más intuitivas. A medida que mejore la tecnología de seguimiento de las manos, la RA y la RV serán aún más envolventes y realistas. 

Puntos clave

La estimación de los puntos clave de las manos con Ultralytics YOLO11 está haciendo que las soluciones de seguimiento de manos basadas en IA sean más accesibles y fiables. Desde el reconocimiento de gestos en tiempo real a la interpretación del lenguaje de signos y las aplicaciones AR/VR, la visión por ordenador está abriendo nuevas posibilidades en la interacción persona-ordenador.

Además, los procesos racionalizados de entrenamiento y ajuste personalizados están ayudando a los desarrolladores a crear modelos eficientes para diversos usos en el mundo real. A medida que evolucione la tecnología de visión por ordenador, podemos esperar aún más innovaciones en áreas como la sanidad, la robótica, los juegos y la seguridad.

Participa en nuestra comunidad y explora los avances de la IA en nuestro repositorio de GitHub. Descubre el impacto de la IA en la fabricación y la visión por ordenador en la sanidad a través de nuestras páginas de soluciones. Explora nuestros planes de licencia y comienza hoy mismo tu viaje por la IA.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático