Descubra la clasificación de imágenes con Ultralytics YOLO: entrene modelos personalizados para sanidad, agricultura, comercio minorista y mucho más utilizando herramientas de vanguardia.
La clasificación de imágenes es una tarea fundamental de la visión por ordenador (VC ) que consiste en asignar una etiqueta única y específica a toda una imagen a partir de un conjunto predefinido de categorías. El objetivo principal es identificar el sujeto principal de una imagen y categorizarla en consecuencia. Por ejemplo, un modelo de clasificación analizaría una imagen y emitiría una etiqueta como "gato", "perro" o "coche". Esta tarea constituye la base de muchas aplicaciones de CV más complejas y es un componente básico del aprendizaje automático (machine learning, ML). El proceso se basa en algoritmos, sobre todo redes neuronales convolucionales (CNN), para aprender características distintivas a partir de grandes conjuntos de datos etiquetados.
Los modelos de clasificación de imágenes se entrenan mediante aprendizaje supervisado, en el que se les alimenta con un gran número de imágenes que ya han sido etiquetadas manualmente con la clase correcta. Durante el entrenamiento, la red neuronal aprende a identificar patrones, texturas, formas y combinaciones de colores asociados a cada categoría. Este aprendizaje se consigue mediante un proceso llamado retropropagación, que ajusta los parámetros internos del modelo, o pesos, para minimizar la diferencia entre sus predicciones y las etiquetas reales.
Los modelos de clasificación modernos suelen utilizar arquitecturas de aprendizaje profundo con muchas capas. Las primeras capas pueden aprender a reconocer características simples como bordes y esquinas, mientras que las capas más profundas las combinan para identificar estructuras más complejas como ojos, ruedas o caras. La última capa de la red suele utilizar una función softmax para producir una puntuación de probabilidad para cada clase posible. La clase con la probabilidad más alta se elige como predicción final. La clave de este proceso es la extracción de rasgos, en la que el modelo aprende automáticamente los rasgos más informativos para la tarea de clasificación.
La clasificación de imágenes se utiliza en numerosos sectores para automatizar y escalar tareas de reconocimiento visual. Dos ejemplos destacados son:
Aunque está estrechamente relacionada con otras tareas de visión por ordenador, la clasificación de imágenes tiene una finalidad distinta. Es importante diferenciarla de:
En resumen, la clasificación le indica qué hay en una imagen, la detección le dice qué y dónde, y la segmentación proporciona un mapa detallado, a nivel de píxel, de todo lo que hay en la escena.
Aunque son famosos por la detección de objetos, los modelos YOLO de Ul tralytics también destacan en tareas de clasificación de imágenes. Los modelos más avanzados, como YOLO11, se pueden entrenar o ajustar fácilmente en conjuntos de datos personalizados mediante el intuitivo paquete Python de Ultralytics o la plataforma sin código Ultralytics HUB.
Nuestra documentación proporciona amplios recursos, incluidos consejos para el entrenamiento de modelos y una guía detallada sobre cómo utilizar YOLO11 para la clasificación de imágenes. Los desarrolladores pueden aprovechar los modelos preentrenados en conjuntos de datos de referencia como ImageNet, CIFAR-100 y Caltech-101 o entrenar un nuevo modelo desde cero. Para los interesados en los últimos avances, recursos como Papers With Code ofrecen una visión completa de los modelos de mayor rendimiento. También se puede comparar el rendimiento de los modelos YOLO con referencias estándar. Frameworks como PyTorch y TensorFlow proporcionan la base para construir y entrenar estos modelos.