Aprende a utilizar el modelo Ultralytics YOLO11 para una estimación precisa de la pose. Cubriremos la inferencia en tiempo real y el entrenamiento personalizado del modelo para diversas aplicaciones.
La investigación relacionada con la visión por ordenador, una rama de la inteligencia artificial (IA), se remonta a la década de 1960. Sin embargo, no fue hasta la década de 2010, con el auge del aprendizaje profundo, cuando vimos grandes avances en la forma en que las máquinas comprenden las imágenes. Uno de los últimos avances en visión por ordenador son los modelos de Ultralytics YOLO11 modelos. Los modelosYOLO11 , presentados por primera vez en el evento híbrido anual Ultralytics', YOLO Vision 2024 (YV24), admiten una serie de tareas de visión por ordenador, incluida la estimación de la pose.
La estimación de la pose puede utilizarse para detectar puntos clave de una persona u objeto en una imagen o vídeo para comprender su posición, postura o movimiento. Se utiliza ampliamente en aplicaciones como la analítica deportiva, la monitorización del comportamiento animal y la robótica para ayudar a las máquinas a interpretar las acciones físicas en tiempo real. Gracias a su mayor precisión, eficacia y velocidad respecto a los modelos anteriores de la serieYOLO (You Only Look Once), YOLO11 es muy adecuado para tareas de estimación de la pose en tiempo real.
En este artículo, exploraremos qué es la estimación de la pose, discutiremos algunas de sus aplicaciones y veremos cómo puedes utilizar YOLO11 con el paqueteUltralytics Python para la estimación de la pose. También veremos cómo puedes utilizar Ultralytics HUB para probar YOLO11 y la estimación de la pose con unos simples clics. ¡Vamos a empezar!
Antes de sumergirnos en cómo utilizar el nuevo modeloUltralytics YOLO11 para la estimación de la pose, vamos a comprender mejor la estimación de la pose.
La estimación de la pose es una técnica de visión por ordenador utilizada para analizar la pose de una persona u objeto en una imagen o vídeo. Los modelos de aprendizaje profundo como YOLO11 pueden identificar, localizar y rastrear puntos clave en un objeto o persona determinados. En el caso de los objetos, estos puntos clave pueden incluir esquinas, bordes o marcas distintivas de la superficie, mientras que en el caso de los humanos, estos puntos clave representan articulaciones importantes como el codo, la rodilla o el hombro.
La estimación de la pose es única y más compleja que otras tareas de visión por ordenador, como la detección de objetos. Mientras que la detección de objetos localiza los objetos de una imagen dibujando un recuadro a su alrededor, la estimación de la pose va más allá al predecir las posiciones exactas de los puntos clave del objeto.
En cuanto a la estimación de la pose, hay dos formas principales de trabajar: ascendente y descendente. El enfoque ascendente detecta puntos clave individuales y los agrupa en esqueletos, mientras que el enfoque descendente se centra en detectar primero los objetos y luego estimar los puntos clave dentro de ellos.
YOLO11 combina los puntos fuertes de los métodos descendente y ascendente. Al igual que el método ascendente, mantiene las cosas sencillas y rápidas sin necesidad de agrupar manualmente los puntos clave. Al mismo tiempo, aprovecha la precisión del método descendente al detectar a las personas y estimar sus poses en un solo paso.
Las versátiles capacidades de YOLO11 para la estimación de la pose abren un amplio abanico de posibles aplicaciones en muchas industrias. Echemos un vistazo más de cerca a algunos casos de uso de la estimación de la pose de YOLO11.
La seguridad es un aspecto importante de cualquier proyecto de construcción. Esto es especialmente cierto, ya que estadísticamente, en las obras de construcción se produce un mayor número de lesiones relacionadas con el trabajo. En 2021, alrededor del 20% de todas las lesiones mortales relacionadas con el trabajo se produjeron en obras de construcción o cerca de ellas. Con riesgos diarios como la maquinaria pesada y los sistemas eléctricos, es esencial adoptar fuertes medidas de seguridad para mantener a salvo a los trabajadores. Los métodos tradicionales, como el uso de señales, barricadas y la vigilancia manual por parte de los supervisores, no siempre son eficaces y a menudo apartan a los supervisores de tareas más críticas.
La IA puede intervenir para mejorar la seguridad, y el riesgo de accidentes puede reducirse utilizando un sistema de supervisión de los trabajadores basado en la estimación de posturas. Ultralytics Pueden utilizarse modelosYOLO11 para seguir los movimientos y posturas de los trabajadores. Cualquier riesgo potencial, como que los trabajadores estén demasiado cerca de equipos peligrosos o realicen tareas incorrectamente, puede detectarse rápidamente. Si se detecta un riesgo, se puede avisar a los supervisores, o una alarma puede alertar al trabajador. Un sistema de supervisión continua puede hacer que las obras sean más seguras, al estar siempre atento a los peligros y proteger a los trabajadores.
Los ganaderos y los investigadores pueden utilizar YOLO11 para estudiar el movimiento y el comportamiento de los animales de granja, como el ganado vacuno, para detectar signos precoces de enfermedades como la cojera. La cojera es una afección en la que un animal se esfuerza por moverse correctamente debido al dolor en sus patas o pies. En el ganado vacuno, enfermedades como la cojera no sólo afectan a su salud y bienestar, sino que también provocan problemas de producción en las explotaciones lecheras. Los estudios demuestran que la cojera afecta a entre el 8% del ganado en sistemas basados en pastos y entre el 15% y el 30% en sistemas confinados en toda la industria láctea mundial. Detectar y tratar precozmente la cojera puede ayudar a mejorar el bienestar animal y reducir las pérdidas de producción asociadas a esta afección.
YOLO11pueden ayudar a los ganaderos a seguir los patrones de marcha del animal e identificar rápidamente cualquier anomalía que pueda indicar problemas de salud, como problemas articulares o infecciones. La detección precoz de estos problemas permite un tratamiento más rápido, reduciendo las molestias de los animales y ayudando a los ganaderos a evitar pérdidas económicas.
Los sistemas de monitorización con IA de visión también pueden ayudar a analizar el comportamiento en reposo, las interacciones sociales y los patrones de alimentación. Los ganaderos también pueden utilizar la estimación de la postura para obtener observaciones sobre signos de estrés o agresividad. Estas percepciones pueden utilizarse para cultivar mejores condiciones de vida para los animales y aumentar su bienestar.
La estimación de posturas también puede ayudar a las personas a mejorar su postura en tiempo real mientras hacen ejercicio. Con YOLO11, los instructores de gimnasia y yoga pueden controlar y seguir los movimientos corporales de las personas que se ejercitan, centrándose en puntos clave como las articulaciones y las extremidades para evaluar su postura. Los datos recogidos pueden compararse con las posturas ideales y las técnicas de entrenamiento, y los instructores pueden recibir alertas si alguien realiza un movimiento incorrectamente, lo que ayuda a prevenir lesiones.
Por ejemplo, durante una clase de yoga, la estimación de posturas puede ayudar a controlar si todos los alumnos mantienen el equilibrio y la alineación adecuados. Las aplicaciones móviles integradas con la visión por ordenador y la estimación de posturas pueden hacer que el fitness sea más accesible para las personas que hacen ejercicio en casa o las que no tienen acceso a entrenadores personales. Esta información continua en tiempo real ayuda a los usuarios a mejorar su técnica y alcanzar sus objetivos de fitness, reduciendo al mismo tiempo el riesgo de lesiones.
Ahora que hemos explorado qué es la estimación de la pose y discutido algunas de sus aplicaciones. Veamos cómo puedes probar la estimación de la pose con el nuevo modelo YOLO11 . Para empezar, hay dos formas cómodas de hacerlo: utilizando el paquete Ultralytics Python o a través de Ultralytics HUB. Echemos un vistazo a ambas opciones.
Ejecutar una inferencia implica que el modelo YOLO11 procese nuevos datos fuera de sus conjuntos de entrenamiento y utilice los patrones que aprendió para hacer predicciones basadas en esos datos. Puedes ejecutar inferencias mediante código con el paquete Ultralytics Python . Todo lo que tienes que hacer para empezar es instalar el paquete Ultralytics utilizando pip, conda o Docker. Si te enfrentas a algún problema durante la instalación, nuestra Guía de problemas comunes te ofrece consejos útiles para solucionarlos.
Una vez que hayas instalado correctamente el paquete, el código siguiente describe cómo cargar un modelo y utilizarlo para predecir las posturas de los objetos de una imagen.
Supongamos que estás trabajando en un proyecto de visión por ordenador y tienes un conjunto de datos específico para una aplicación concreta que implica la estimación de la pose. Entonces puedes afinar y entrenar un modelo YOLO11 personalizado que se adapte a tu aplicación. Por ejemplo, puedes utilizar un conjunto de datos de puntos clave para analizar y comprender la pose de un tigre en imágenes, identificando características clave como la posición de sus extremidades, cabeza y cola.
Puedes utilizar el siguiente fragmento de código para cargar y entrenar un modelo de estimación de la pose YOLO11 . El modelo puede construirse a partir de una configuración YAML, o puedes cargar un modelo preentrenado para su entrenamiento. Este script también te permite transferir pesos y empezar a entrenar el modelo utilizando un conjunto de datos especificado, como el conjunto de datos COCO para la estimación de la pose.
Utilizando el modelo personalizado recién entrenado, puedes realizar inferencias sobre imágenes no vistas relacionadas con tu solución de visión por ordenador. El modelo entrenado también puede convertirse a otros formatos utilizando el modo de exportación.
Hasta ahora, hemos visto métodos para utilizar YOLO11 que requieren algunos conocimientos básicos de codificación. Si eso no es lo que buscas, o no estás familiarizado con la codificación, hay otra opción: Ultralytics HUB. Ultralytics HUB es una plataforma fácil de usar, diseñada para simplificar el proceso de entrenamiento y despliegue de los modelos YOLO . HUB te permite gestionar fácilmente conjuntos de datos, entrenar modelos y desplegarlos sin necesidad de conocimientos técnicos.
Para realizar inferencias sobre imágenes, puedes crear una cuenta, navegar a la sección "Modelos" y elegir el modelo de estimación de la pose YOLO11 que te interese. En la sección de previsualización, puedes subir una imagen y ver los resultados de la predicción, como se muestra a continuación.
Ultralytics YOLO11 ofrece soluciones precisas y flexibles para tareas como la estimación de la postura en una amplia gama de aplicaciones. Desde mejorar la seguridad de los trabajadores en las obras de construcción hasta controlar la salud del ganado y ayudar a corregir la postura en rutinas de fitness, YOLO11 aporta precisión e información en tiempo real mediante una avanzada tecnología de visión por ordenador.
Su versatilidad, con múltiples variantes del modelo y la posibilidad de personalizar el entrenamiento para casos de uso específicos, lo convierten en una herramienta muy valiosa tanto para desarrolladores como para empresas. Ya sea codificando con el paquete Ultralytics Python o utilizando el HUB Ultralytics para una implementación más sencilla, YOLO11 hace que la estimación de la pose sea accesible e impactante.
Para saber más, visita nuestro repositorio de GitHub y participa en nuestra comunidad. Explora las aplicaciones de la IA en la fabricación y la agricultura en nuestras páginas de soluciones. 🚀
Comienza tu viaje con el futuro del aprendizaje automático