Glosario

ImageNet

Explora ImageNet, el conjunto de datos fundamental del aprendizaje profundo. Descubre cómo potencia Ultralytics mediante el aprendizaje por transferencia para una clasificación de imágenes de alta precisión.

ImageNet una monumental base de datos visual diseñada para su uso en la investigación de software de reconocimiento visual de objetos y es ampliamente considerada como el catalizador que desencadenó la moderna revolución del aprendizaje profundo. Organizada según la jerarquía de WordNet, ImageNet millones de imágenes etiquetadas en miles de categorías, lo que proporciona la enorme escala de datos necesaria para entrenar sofisticadas redes neuronales. Para los investigadores y desarrolladores en visión por computadora, ImageNet como punto de referencia estándar para evaluar el rendimiento de los algoritmos, especialmente en tareas como la clasificación de imágenes y la localización de objetos.

ImageNet y el auge de las CNN

El conjunto de datos ganó prominencia mundial a través del ImageNet Scale Visual Recognition Challenge (ILSVRC), una competición anual celebrada entre 2010 y 2017. Este concurso requería algoritmos para classify en una de las 1000 categorías con alta precisión. En 2012 se produjo un punto de inflexión histórico cuando una red neuronal convolucional (CNN) conocida como AlexNet logró una tasa de error drásticamente menor que la de sus competidores. Esta victoria demostró la superioridad de las redes neuronales profundas sobre los métodos tradicionales de extracción de características, lo que supuso el inicio efectivo de la era actual de la IA. Hoy en día, arquitecturas de vanguardia como Ultralytics siguen basándose en los principios fundamentales establecidos durante estos retos.

El papel del preentrenamiento y el aprendizaje por transferencia

Una de las contribuciones más significativas de ImageNet su papel en el aprendizaje por transferencia. Entrenar una red neuronal profunda desde cero requiere enormes recursos computacionales y grandes cantidades de datos de entrenamiento. Para evitarlo, los desarrolladores suelen utilizar «modelos preentrenados», redes que ya han aprendido a extraer representaciones de características ricas de ImageNet.

Cuando un modelo se preentrena en ImageNet, aprende a identificar elementos visuales fundamentales como bordes, texturas y formas. A continuación, los pesos del modelo aprendidos se pueden ajustar en un conjunto de datos más pequeño y específico para una tarea diferente. Este proceso acelera drásticamente los ciclos de desarrollo y mejora el rendimiento, especialmente cuando se utilizan herramientas como Ultralytics para el entrenamiento de modelos personalizados.

Aplicaciones en el mundo real

La influencia de ImageNet mucho más allá de la investigación académica, llegando a los sistemas prácticos y cotidianos de IA:

Caja automática en tiendas minoristas: Los sistemas que identifican automáticamente los productos en un quiosco de autopago se basan en capacidades de clasificación perfeccionadas en conjuntos de datos masivos como ImageNet. Al distinguir entre artículos visualmente similares (por ejemplo, diferentes tipos de manzanas), estos sistemas optimizan la IA en el comercio minorista.
Moderación de contenidos: Las plataformas de redes sociales utilizan el reconocimiento visual para escanear automáticamente millones de imágenes subidas en busca de contenidos inapropiados. La capacidad básica para reconocer objetos y escenas suele derivarse de estructuras entrenadas originalmente en ImageNet .

ImageNet a COCO CIFAR-10

Aunque ImageNet el estándar de referencia para la clasificación, es importante distinguirlo de otros conjuntos de datos populares:

ImageNet COCO: El conjunto de datos COCO Common Objects in Context) es el principal punto de referencia para la detección y segmentación de objetos. Mientras que ImageNet «qué» hay en la imagen (clasificación), COCO en «dónde» están los objetos y sus límites precisos.
ImageNet ImageNet ImageNet CIFAR-10: CIFAR-10 es un conjunto de datos mucho más pequeño que consta de pequeñas imágenes de 32 x 32 píxeles. Se utiliza a menudo para la creación rápida de prototipos o con fines educativos, mientras que ImageNet representa un reto de alta resolución y nivel profesional para modelos listos para la producción.

Uso de modelos preentrenados ImageNet

Los marcos modernos de IA permiten a los usuarios aprovechar ImageNet sin esfuerzo. El siguiente ejemplo muestra cómo cargar un modelo de clasificación YOLO26, que viene preentrenado en ImageNet, para classify imagen.

from ultralytics import YOLO

# Load a YOLO26 classification model pre-trained on ImageNet
model = YOLO("yolo26n-cls.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top prediction class name
print(f"Top Class: {results[0].names[results[0].probs.top1]}")

Este fragmento utiliza el yolo26n-cls.pt modelo, que ha aprendido las 1000 ImageNet , lo que le permite reconocer instantáneamente el contenido de la imagen introducida sin necesidad de formación adicional.

ImageNet

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

ImageNet y el auge de las CNN

El papel del preentrenamiento y el aprendizaje por transferencia

Aplicaciones en el mundo real

ImageNet a COCO CIFAR-10

Uso de modelos preentrenados ImageNet

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

¿Qué es la estimación de profundidad monocular? Una visión general

Una mirada al uso deYOLO Ultralytics para la detección de amenazas mediante IA

Únase a la comunidad Ultralytics