Cómo utilizar Ultralytics YOLO11 para la clasificación de imágenes

Abirami Vina

4 min leer

11 de noviembre de 2024

Descubra cómo el nuevo modelo YOLO11 de Ultralytics mejora la clasificación de imágenes, ofreciendo una mayor precisión para tareas en agricultura, comercio minorista y vigilancia de la vida salvaje.

Supongamos que un robot observa dos gatos, uno negro y otro blanco, y necesita averiguar cuál es cuál. Para ello, puede utilizar la clasificación de imágenes, una tarea de visión por ordenador que ayuda a identificar y categorizar objetos o escenas en una imagen. De hecho, gracias a los recientes avances en inteligencia artificial (IA), la clasificación de imágenes puede utilizarse en una amplia variedad de aplicaciones que van desde la vigilancia de animales hasta la fabricación y la agricultura con la detección de enfermedades en los cultivos.

Uno de los últimos avances en clasificación de imágenes es el modelo YOLO11 de Ultralytics. Presentado en el evento híbrido anual de Ultralytics, YOLO Vision 2024 (YV24), YOLO11 está diseñado para abordar una amplia variedad de tareas de Vision AI, incluida la clasificación de imágenes, con facilidad y precisión.

En este artículo, exploraremos los fundamentos de la clasificación de imágenes, discutiremos aplicaciones del mundo real y le mostraremos cómo puede utilizar YOLO11 para la clasificación de imágenes a través del paquete Python de Ultralytics. También veremos cómo probar las capacidades de YOLO11 en el HUB de Ul tralytics en unos sencillos pasos. ¡Vamos a empezar!

__wf_reserved_inherit
Fig. 1. Ejemplo de utilización de Ultralytics YOLO11 para clasificar un gato persa.

¿Qué es la clasificación de imágenes?

La clasificación de imágenes consiste en asignar una etiqueta a una imagen basándose en patrones aprendidos de imágenes previamente etiquetadas. Analizando cuidadosamente los píxeles de una imagen, un modelo de visión por ordenador puede encontrar la mejor correspondencia para la imagen. Los modelos fiables como YOLO11 pueden gestionar este proceso sin problemas. La arquitectura del modelo de YOLO11 permite procesar imágenes o fotogramas de vídeo casi al instante, lo que lo hace ideal para aplicaciones que necesitan una clasificación de imágenes rápida y precisa.

Para comprender realmente el alcance de la clasificación de imágenes, resulta útil distinguirla de otras tareas como la detección de objetos. Mientras que la clasificación de imágenes etiqueta una imagen entera, la detección de objetos identifica y localiza cada objeto dentro de la imagen. 

__wf_reserved_inherit
Fig. 2. Comparación de la clasificación de imágenes, la detección de objetos y la segmentación de imágenes.

Consideremos la imagen de una jirafa. En la clasificación de imágenes, el modelo podría etiquetar toda la imagen simplemente como una jirafa basándose en su contenido general. Sin embargo, con la detección de objetos, el modelo no se limita a identificar la jirafa, sino que también coloca un cuadro delimitador alrededor de la jirafa, señalando su ubicación exacta dentro de la imagen.

Ahora, imagine que la jirafa está de pie cerca de un árbol en una sabana con otros animales. Un modelo de clasificación de imágenes podría etiquetar toda la escena como sabana o sólo fauna. Sin embargo, con la detección de objetos, el modelo identificaría cada elemento individualmente, reconociendo la jirafa, el árbol y los otros animales, cada uno con sus propias cajas delimitadoras.

Aplicaciones de la clasificación de imágenes YOLO11

La precisión y el rendimiento del modelo YOLO11 de Ultralytics para la clasificación de imágenes lo hacen útil en una amplia gama de sectores. Exploremos algunas de las principales aplicaciones de YOLO11 en la clasificación de imágenes.

Clasificación de imágenes YOLO11 en agricultura

La clasificación de imágenes puede ayudar a agilizar muchas funciones en la industria agrícola y ganadera. En concreto, con modelos de clasificación de imágenes como YOLO11, los agricultores pueden vigilar constantemente la salud de sus cultivos, detectar enfermedades graves e identificar cualquier infestación de plagas con gran precisión. 

A continuación te explicamos cómo funciona:

  • Captura de imágenes: Se pueden desplegar dispositivos de Internet de las Cosas (IoT ) como cámaras y drones para capturar imágenes en tiempo real de los cultivos desde distintos ángulos y ubicaciones en los campos.
  • Tratamiento: En función de los recursos y la conectividad disponibles, las imágenes pueden procesarse in situ mediante edge computing o subirse a la nube para un análisis más intensivo.
  • Clasificación de imágenes con YOLO11: El modelo YOLO11 puede analizar estas imágenes para clasificar las distintas condiciones de los cultivos. Las clases más comunes pueden incluir cultivos sanos, enfermos, infestados de plagas o deficientes en nutrientes, lo que ayuda a localizar problemas específicos que afectan a distintas zonas del campo.
  • Generación de información: Basándose en las clasificaciones, YOLO11 proporciona información sobre los indicadores de salud de los cultivos, lo que ayuda a los agricultores a detectar los primeros signos de enfermedad, identificar los focos de plagas o detectar las deficiencias de nutrientes.
  • Toma de decisiones informada: Con esta información, los agricultores pueden tomar decisiones específicas sobre riego, fertilización y control de plagas, aplicando los recursos sólo donde más se necesitan.
__wf_reserved_inherit
Fig. 3. Ejemplo de diferentes clases de hojas, de sanas a infectadas.

Clasificación de imágenes YOLO11 en el comercio minorista

La clasificación de imágenes puede mejorar significativamente la experiencia de compra, haciéndola más personalizada y fácil de usar. Los minoristas pueden utilizar modelos de visión por ordenador personalizados para reconocer los productos de su inventario e integrar esta función en sus aplicaciones móviles o sitios web. De este modo, los clientes pueden buscar productos simplemente subiendo una foto, lo que agiliza y hace más cómoda la compra.

Una vez que un cliente carga una imagen en un sistema de búsqueda visual, suceden varias cosas entre bastidores antes de que aparezcan los resultados de la búsqueda. 

En primer lugar, se puede utilizar la detección de objetos para distinguir los elementos principales de la imagen, como identificar una prenda de vestir o un mueble y separarlos del fondo. A continuación, puede utilizarse la clasificación de imágenes para clasificar aún más cada elemento, reconociendo si se trata de una chaqueta, una camisa, un sofá o una mesa. 

Con esta información, el sistema puede extraer productos similares disponibles para la compra, lo que resulta especialmente útil para encontrar artículos únicos o de moda que son difíciles de describir sólo con palabras. La misma tecnología también puede ayudar a agilizar otras tareas del comercio minorista, como la gestión de inventarios, al reconocer y clasificar automáticamente los artículos.

__wf_reserved_inherit
Fig. 4. Una plataforma de búsqueda visual basada en la clasificación de imágenes en acción.

Seguimiento de la fauna con la clasificación de imágenes YOLO11

Tradicionalmente, el seguimiento de animales en libertad es una tarea tediosa en la que intervienen muchas personas que clasifican y analizan manualmente miles de fotos. Con modos de visión por ordenador como YOLO11, los investigadores pueden vigilar automáticamente a los animales a un ritmo más rápido. Se pueden colocar cámaras en hábitats naturales para tomar fotos. A continuación, se puede utilizar el modelo de IA de visión para analizar estas fotos y clasificar los animales que contienen (si los hay). Este sistema puede ayudar a los investigadores a estudiar y seguir las poblaciones de animales, sus pautas migratorias, etc.

Otra forma en que la IA y los modelos de visión por ordenador como YOLO11 pueden ayudar en este campo es agilizando el proceso de clasificación de especies amenazadas. Al identificar posibles especies o categorías de razas a las que pueda pertenecer un animal, estos modelos pueden aportar datos esenciales para los investigadores. Por ejemplo, la Universidad de Tasmania (UTAS) desarrolló un sistema basado en la clasificación de imágenes para vigilar distintos animales salvajes de Tasmania. Las predicciones de los modelos pueden ayudar a científicos e investigadores a vigilar la actividad y el comportamiento de los animales, que pueden señalar amenazas como la caza furtiva o la pérdida de hábitat

__wf_reserved_inherit
Fig. 5. YOLO11 predice las posibles razas a las que puede pertenecer un perro.

Pruebas de clasificación de imágenes con el modelo YOLO11

Ya hemos hablado de la clasificación de imágenes y hemos explorado algunas de sus aplicaciones. Veamos cómo probar la clasificación de imágenes con el nuevo modelo YOLO11. Hay dos maneras sencillas de empezar: utilizando el paquete Python de Ultralytics o a través de Ultralytics HUB. Analizaremos ambas opciones.

Ejecutar inferencias con YOLO11

Para empezar a utilizar el paquete Ultralytics Python, basta con instalarlo mediante pip, conda o Docker. Si se encuentra con algún problema, consulte nuestra Guía de problemas comunes para obtener consejos útiles de solución de problemas.

Una vez instalado el paquete, puede utilizar el siguiente código para cargar una variante del modelo de clasificación de imágenes YOLO11 y ejecutar una inferencia sobre una imagen. Ejecutar una inferencia significa utilizar un modelo entrenado para hacer predicciones sobre datos nuevos, no vistos. Puedes probarlo con una imagen de tu elección.

__wf_reserved_inherit
Fig. 6. Ejecución de inferencias con el modelo YOLO11.

Entrenamiento de un modelo de clasificación YOLO11 personalizado

También puede utilizar el mismo paquete Python para entrenar un modelo de clasificación YOLO11 personalizado. El entrenamiento personalizado le permite ajustar un modelo YOLO11 a sus necesidades específicas. Por ejemplo, si estás desarrollando una aplicación para clasificar diferentes razas de gatos, puedes entrenar un modelo YOLO11 personalizado sólo para ese propósito.

El siguiente código muestra cómo cargar y entrenar un modelo de clasificación de imágenes YOLO11. Le permite transferir pesos preentrenados, utilizando el conocimiento de un modelo existente para mejorar el rendimiento de su propio modelo. Puede especificar un conjunto de datos, como el conjunto de datos "fashion-mnist", que es un conjunto bien conocido de imágenes en escala de grises de prendas de vestir (camisas, pantalones, zapatos, etc.). El entrenamiento del modelo con este conjunto de datos le enseña a reconocer diferentes categorías de ropa. Puedes sustituir "fashion-mnist" por cualquier conjunto de datos que se ajuste a tu proyecto, como razas de gatos o tipos de plantas.

__wf_reserved_inherit
Fig. 7. Entrenamiento personalizado de un modelo YOLO11 para la clasificación de imágenes.

Pruebe YOLO11 en Ultralytics HUB

Aunque el uso del paquete Ultralytics es sencillo, requiere ciertos conocimientos de Python. Si buscas una opción más sencilla para principiantes, puedes utilizar Ultralytics HUB, una plataforma diseñada para que la formación y el despliegue de diferentes modelos YOLO sean sencillos y accesibles. Para empezar, tendrás que crear una cuenta.

Una vez que se haya identificado, vaya a la sección "Modelos" y seleccione el modelo YOLO11 para la clasificación de imágenes. Verás que hay varios tamaños de modelo disponibles: nano, pequeño, mediano, grande y extragrande. Después de elegir un modelo, puedes cargar una imagen en la sección "Vista previa", donde aparecerán las predicciones en la parte izquierda de la página una vez procesada la imagen.

__wf_reserved_inherit
Fig 8. Utilización de Ultralytics HUB para realizar una inferencia.

Principales conclusiones

YOLO11 ofrece potentes funciones de clasificación de imágenes que abren nuevas posibilidades en diversos sectores. La velocidad y precisión de YOLO11 lo hacen ideal para diversas aplicaciones, desde la mejora de la supervisión de cultivos en la agricultura y la mejora de las búsquedas de productos en el comercio minorista hasta el apoyo a la conservación de la vida silvestre. Con opciones de formación personalizada a través del paquete Python de Ultralytics o una configuración fácil de usar y sin código en Ultralytics HUB, los usuarios pueden incorporar fácilmente YOLO11 a sus flujos de trabajo. A medida que más industrias adoptan soluciones de IA, YOLO11 ofrece una herramienta flexible y de alto rendimiento que apoya la innovación y los avances prácticos.

Para saber más, visite nuestro repositorio de GitHub y participe en nuestra comunidad. Explora las aplicaciones de IA en coches autónomos y asistencia sanitaria en nuestras páginas de soluciones. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles