Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje Zero-Shot

Explora el aprendizaje sin datos (Zero-Shot Learning, ZSL) para detect classify sin datos de entrenamiento. Descubre cómo Ultralytics YOLO permite la detección en tiempo real con vocabulario abierto.

El aprendizaje sin datos (Zero-Shot Learning, ZSL) es un paradigma de aprendizaje automático que permite a los modelos de inteligencia artificial reconocer, classify o detect con los que nunca se han encontrado durante su fase de entrenamiento. En el aprendizaje supervisado tradicional, un modelo requiere miles de ejemplos etiquetados para cada categoría específica que necesita identificar. El ZSL elimina esta estricta dependencia al aprovechar la información auxiliar —normalmente descripciones de texto, atributos semánticos o incrustaciones—para salvar la brecha entre las clases vistas y no vistas . Esta capacidad permite que los sistemas de inteligencia artificial (IA) sean significativamente más flexibles, escalables y capaces de manejar entornos dinámicos en los que no es práctico recopilar datos exhaustivos para cada objeto posible.

Cómo funciona Zero-Shot Learning

El mecanismo central de ZSL implica transferir conocimiento de conceptos familiares a desconocidos utilizando un espacio semántico compartido. En lugar de aprender a reconocer una «cebra» únicamente memorizando patrones de píxeles de rayas blancas y negras, el modelo aprende la relación entre las características visuales y los atributos semánticos (por ejemplo, «forma similar a un caballo», «patrón rayado», «cuatro patas») derivados del procesamiento del lenguaje natural (NLP).

Este proceso suele basarse en modelos multimodales que alinean las representaciones de imágenes y texto . Por ejemplo, investigaciones fundamentales como CLIP de OpenAI demuestran cómo los modelos pueden aprender conceptos visuales a partir de la supervisión del lenguaje natural. Cuando un modelo ZSL se encuentra con un objeto desconocido, extrae las características visuales y las compara con un diccionario de vectores semánticos. Si las características visuales se alinean con la descripción semántica de la nueva clase, el modelo puede classify correctamente, realizando de manera efectiva una predicción «zero-shot». Este enfoque es fundamental para los modelos básicos modernos que se generalizan en una amplia gama de tareas.

Aplicaciones en el mundo real

El aprendizaje sin datos (Zero-Shot Learning) está impulsando la innovación en diversas industrias al permitir que los sistemas generalicen más allá de sus datos de entrenamiento iniciales.

  1. Detección de objetos con vocabulario abierto: Las arquitecturas modernas como YOLO utilizan ZSL para detect basándose en indicaciones de texto definidas por el usuario. Esto permite la detección de objetos en escenarios en los que es imposible definir de antemano una lista fija de clases, como la búsqueda de elementos específicos en vastos archivos de vídeo. Los investigadores de Google siguen ampliando los límites de estas capacidades de vocabulario abierto.
  2. Diagnóstico médico: En la IA aplicada a la asistencia sanitaria, obtener datos etiquetados para enfermedades raras suele ser difícil y caro. Los modelos ZSL pueden entrenarse con afecciones comunes y descripciones de síntomas raros extraídos de la literatura médica que se encuentra en bases de datos como PubMed, lo que permite al sistema señalar posibles anomalías raras en imágenes médicas sin necesidad de un enorme conjunto de datos de casos positivos.
  3. Conservación de la vida silvestre: Para la IA en agricultura y ecología, es fundamental identificar especies en peligro de extinción que rara vez son fotografiadas. ZSL permite a los conservacionistas detect animales utilizando descripciones basadas en atributos definidos en bases de datos biológicas como la Enciclopedia de la Vida.

Detección de disparo cero con Ultralytics

El modelo YOLOUltralytics es un ejemplo de aprendizaje sin disparos en acción. Permite a los usuarios definir clases personalizadas de forma dinámica en tiempo de ejecución sin necesidad de volver a entrenar el modelo. Esto se consigue conectando una sólida columna vertebral de detección con un codificador de texto que entiende el lenguaje natural.

El siguiente Python muestra cómo utilizar YOLO para detect que no formaban parte explícitamente de un conjunto de entrenamiento estándar utilizando el ultralytics paquete.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Distinción de conceptos afines

Para entender bien la ZSL, conviene distinguirla de estrategias de aprendizaje similares utilizadas en visión por ordenador (CV):

  • Aprendizaje con pocos ejemplos (FSL): Mientras que el ZSL no requiere ejemplos de la clase objetivo, el FSL proporciona al modelo un conjunto de apoyo muy pequeño (normalmente de 1 a 5 ejemplos) para adaptarse. El ZSL se considera generalmente más difícil, ya que se basa completamente en la inferencia semántica en lugar de en ejemplos visuales.
  • Aprendizaje único: Un subconjunto de FSL en el que el modelo aprende exactamente a partir de un ejemplo etiquetado. ZSL difiere fundamentalmente porque funciona sin una sola imagen de la nueva categoría.
  • Aprendizaje por transferencia: Este término se refiere a la transferencia de conocimientos de una tarea a otra. ZSL es un tipo específico de aprendizaje por transferencia que transferencia que utiliza atributos semánticos para transferir conocimientos a clases no vistas sin de los datos nuevos.

Retos y perspectivas

Aunque ZSL ofrece un inmenso potencial, se enfrenta a retos como el problema del cambio de dominio, en el que los atributos semánticos aprendidos durante el entrenamiento no se corresponden perfectamente con la apariencia visual de las clases no vistas. Además, los modelos ZSL pueden sufrir sesgos, por lo que la precisión de la predicción es significativamente mayor para las clases vistas en comparación con las no vistas.

Investigaciones de organizaciones como el Laboratorio de Inteligencia Artificial de la Universidad de Stanford y la IEEE Computer Society continúan abordando estas limitaciones. A medida que las herramientas de visión artificial se vuelven más robustas, se espera que ZSL se convierta en una característica estándar, reduciendo la dependencia de los enormes esfuerzos de etiquetado de datos. Para los equipos que buscan gestionar conjuntos de datos de manera eficiente antes de implementar modelos avanzados, Ultralytics ofrece herramientas completas para la anotación y la gestión de conjuntos de datos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora