Descubre cómo el nuevo modelo Ultralytics YOLO11 mejora la clasificación de imágenes, ofreciendo una mayor precisión para tareas en agricultura, comercio minorista y vigilancia de la vida salvaje.
Supongamos que un robot observa dos gatos, uno negro y otro blanco, y necesita averiguar cuál es cuál. Para ello, puede utilizar la clasificación de imágenes, una tarea de visión por ordenador que ayuda a identificar y categorizar objetos o escenas en una imagen. De hecho, gracias a los recientes avances en inteligencia artificial (IA), la clasificación de imágenes puede utilizarse en una amplia variedad de aplicaciones que van desde la vigilancia de animales a la fabricación y la agricultura con la detección de enfermedades en los cultivos.
Uno de los últimos avances en clasificación de imágenes es el modeloUltralytics YOLO11 . Presentado en el evento híbrido anual deUltralytics', YOLO Vision 2024 (YV24), YOLO11 está diseñado para abordar con facilidad y precisión una amplia variedad de tareas de IA de Visión, incluida la clasificación de imágenes.
En este artículo, exploraremos los fundamentos de la clasificación de imágenes, hablaremos de las aplicaciones en el mundo real y te mostraremos cómo puedes utilizar YOLO11 para la clasificación de imágenes a través del paqueteUltralytics Python . También veremos cómo puedes probar las capacidades deYOLO11 en el HUB Ultralytics en unos sencillos pasos. ¡Vamos a empezar!
La clasificación de imágenes funciona asignando una etiqueta o rótulo a una imagen basándose en patrones aprendidos de imágenes previamente etiquetadas. Analizando cuidadosamente los píxeles de una imagen, un modelo de visión por ordenador puede encontrar la mejor correspondencia para la imagen. Los modelos fiables como YOLO11 pueden manejar este proceso sin problemas. YOLO11La arquitectura de los modelos de Visión Artificial permite procesar imágenes o fotogramas de vídeo casi instantáneamente, lo que los hace ideales para aplicaciones que necesitan una clasificación de imágenes rápida y precisa.
Para comprender realmente el alcance de la clasificación de imágenes, ayuda distinguirla de otras tareas como la detección de objetos. Mientras que la clasificación de imágenes etiqueta una imagen entera, la detección de objetos identifica y localiza cada objeto dentro de la imagen.
Consideremos una imagen de una jirafa. En la clasificación de imágenes, el modelo podría etiquetar toda la imagen simplemente como una jirafa basándose en su contenido general. Sin embargo, con la detección de objetos, el modelo no se limita a identificar la jirafa, sino que también coloca un cuadro delimitador alrededor de la jirafa, señalando su ubicación exacta dentro de la imagen.
Ahora, imagina que la jirafa está de pie cerca de un árbol en una sabana con otros animales. Un modelo de clasificación de imágenes podría etiquetar toda la escena como sabana o sólo fauna. Sin embargo, con la detección de objetos, el modelo identificaría cada elemento individualmente, reconociendo la jirafa, el árbol y los demás animales, cada uno con sus propias cajas delimitadoras.
La precisión y el rendimiento del modelo Ultralytics YOLO11 para la clasificación de imágenes lo hacen útil en una amplia gama de sectores. Exploremos algunas de las principales aplicaciones de YOLO11 en la clasificación de imágenes.
La clasificación de imágenes puede ayudar a agilizar muchas funciones en la industria agrícola y ganadera. En concreto, utilizando modelos de clasificación de imágenes como YOLO11, los agricultores pueden controlar constantemente la salud de sus cultivos, detectar enfermedades graves e identificar cualquier infestación de plagas con gran precisión.
A continuación te explicamos cómo funciona:
La clasificación de imágenes puede mejorar significativamente la experiencia de compra en los comercios, haciéndola más personalizada y fácil de usar. Los minoristas pueden utilizar modelos de visión por ordenador entrenados a medida para reconocer los productos de su inventario e integrar esta capacidad en sus aplicaciones móviles o sitios web. Los clientes pueden buscar productos simplemente subiendo una foto, lo que agiliza y hace más cómoda la compra.
Una vez que un cliente sube una imagen a un sistema de búsqueda visual, ocurren varias cosas entre bastidores antes de que aparezcan los resultados de la búsqueda.
En primer lugar, se puede utilizar la detección de objetos para elegir los elementos principales de la imagen, como identificar una prenda de vestir o un mueble y separarlo del fondo. A continuación, se puede utilizar la clasificación de imágenes para categorizar aún más cada elemento, reconociendo si se trata de una chaqueta, una camisa, un sofá o una mesa.
Con esta información, el sistema puede extraer productos similares disponibles para la compra, lo que resulta especialmente útil para encontrar artículos únicos o de moda que son difíciles de describir sólo con palabras. La misma tecnología también puede ayudar a agilizar otras tareas del comercio, como la gestión del inventario, reconociendo y clasificando automáticamente los artículos.
Tradicionalmente, el seguimiento de animales en la naturaleza es una tarea tediosa que implica que muchas personas clasifiquen y analicen manualmente miles de fotos. Con modos de visión por ordenador como YOLO11, los investigadores pueden vigilar automáticamente a los animales a un ritmo más rápido. Se pueden colocar cámaras en hábitats naturales para tomar fotos. A continuación, se puede utilizar el modelo de IA de visión para analizar estas fotos y clasificar los animales que contienen (si los hay). Un sistema así puede ayudar a los investigadores a estudiar y seguir las poblaciones de animales, sus pautas migratorias, etc.
Otra forma en que la IA y los modelos de visión por ordenador como YOLO11 pueden ayudar en este campo es agilizando el proceso de clasificación de las especies amenazadas. Al identificar las posibles categorías de especies o razas a las que puede pertenecer un animal, estos modelos pueden proporcionar datos esenciales para los investigadores. Por ejemplo, la Universidad de Tasmania (UTAS) desarrolló un sistema basado en la clasificación de imágenes para vigilar distintos animales salvajes de Tasmania. Las predicciones de los modelos pueden ayudar a los científicos e investigadores a vigilar la actividad y el comportamiento de los animales, que pueden señalar amenazas como la caza furtiva o la pérdida de hábitat.
Ahora que hemos hablado de qué es la clasificación de imágenes y explorado algunas de sus aplicaciones. Veamos cómo puedes probar la clasificación de imágenes con el nuevo modelo YOLO11 . Hay dos formas sencillas de empezar: utilizando el paqueteUltralytics Python o a través de Ultralytics HUB. Recorreremos ambas opciones.
Para empezar a utilizar el paquete Ultralytics Python , sólo tienes que instalarlo mediante pip, conda o Docker. Si te encuentras con algún problema, consulta nuestra Guía de problemas comunes para obtener consejos útiles para solucionarlos.
Una vez instalado el paquete, puedes utilizar el código siguiente para cargar una variante del modelo de clasificación de imágenes YOLO11 y ejecutar una inferencia sobre una imagen. Ejecutar una inferencia significa utilizar un modelo entrenado para hacer predicciones sobre datos nuevos, no vistos. Puedes probarlo con una imagen de tu elección.
También puedes utilizar el mismo paquete Python para entrenar un modelo de clasificación personalizado YOLO11 . El entrenamiento personalizado te permite ajustar un modelo YOLO11 a tus necesidades específicas. Por ejemplo, si estás desarrollando una aplicación para clasificar diferentes razas de gatos, puedes entrenar de forma personalizada un modelo YOLO11 sólo para ese fin.
El código siguiente muestra cómo cargar y entrenar un modelo de clasificación de imágenes YOLO11 . Te permite transferir pesos preentrenados, utilizando los conocimientos de un modelo existente para mejorar el rendimiento de tu propio modelo. Puedes especificar un conjunto de datos, como el conjunto de datos "fashion-mnist", que es un conocido conjunto de imágenes en escala de grises de prendas de vestir (camisas, pantalones, zapatos, etc.). Entrenar el modelo con este conjunto de datos le enseña a reconocer distintas categorías de ropa. Puedes sustituir "fashion-mnist" por cualquier conjunto de datos que se ajuste a tu proyecto, como razas de gatos o tipos de plantas.
Aunque utilizar el paquete Ultralytics es sencillo, requiere ciertos conocimientos de Python. Si buscas una opción más fácil para principiantes, puedes utilizar Ultralytics HUB, una plataforma diseñada para que la formación y la implantación de los distintos modelos de YOLO sean sencillas y accesibles. Para empezar, tendrás que crear una cuenta.
Una vez que te hayas identificado, navega hasta la sección "Modelos" y selecciona el modelo YOLO11 para la clasificación de imágenes. Verás una serie de tamaños de modelo disponibles: nano, pequeño, mediano, grande y extragrande. Tras elegir un modelo, puedes cargar una imagen en la sección "Vista previa", donde aparecerán las predicciones en la parte izquierda de la página una vez procesada la imagen.
YOLO11 ofrece potentes funciones de clasificación de imágenes que abren nuevas posibilidades en diversos sectores. Desde la mejora de la supervisión de cultivos en la agricultura y la mejora de las búsquedas de productos en el comercio minorista hasta el apoyo a la conservación de la vida salvaje, la velocidad y precisión de YOLO11lo hacen ideal para diversas aplicaciones. Con opciones de formación personalizada a través del paquete Ultralytics Python o una configuración fácil de usar y sin código en Ultralytics HUB, los usuarios pueden incorporar fácilmente YOLO11 a sus flujos de trabajo. A medida que más industrias adoptan soluciones de IA, YOLO11 ofrece una herramienta flexible y de alto rendimiento que apoya la innovación y los avances prácticos.
Para saber más, visita nuestro repositorio de GitHub y participa en nuestra comunidad. Explora las aplicaciones de la IA en los coches autónomos y la asistencia sanitaria en nuestras páginas de soluciones. 🚀
Comienza tu viaje con el futuro del aprendizaje automático