Glosario

Aprendizaje Zero-Shot

Descubra Zero-Shot Learning: un enfoque de IA de vanguardia que permite a los modelos clasificar datos no vistos, revolucionando la detección de objetos, la PNL y mucho más.

El aprendizaje cero (ZSL, Zero-Shot Learning) es una fascinante capacidad del aprendizaje automático (ML, Machine Learning) por la que un modelo puede reconocer y clasificar objetos de categorías que nunca ha visto durante su fase de datos de entrenamiento. A diferencia del aprendizaje supervisado tradicional, que requiere ejemplos explícitos para cada clase posible, el ZSL permite a un modelo generalizar sus conocimientos a clases nuevas y nunca vistas. Esto se consigue asociando clases observadas y no observadas mediante descripciones semánticas de alto nivel, como atributos o incrustaciones de texto. Esto permite que un modelo de IA sea más flexible y escalable, especialmente en situaciones reales en las que la recopilación exhaustiva de datos etiquetados es poco práctica.

¿Cómo funciona?

La idea central de ZSL es crear un espacio de incrustación compartido en el que puedan representarse tanto las características visuales de las imágenes como la información semántica del texto. Durante el entrenamiento, el modelo aprende a asignar imágenes de clases vistas a sus correspondientes vectores semánticos (atributos o incrustaciones de palabras). Por ejemplo, el modelo aprende las características visuales de un "caballo" y las vincula a una descripción semántica como "tiene cuatro patas", "es un mamífero" y "se puede montar".

Cuando se le presenta una imagen de una clase desconocida, como una "cebra", el modelo extrae sus características visuales. Al mismo tiempo, utiliza la descripción semántica de una "cebra" -por ejemplo, "tiene forma de caballo", "tiene rayas"- para localizarla en el espacio de incrustación. Al encontrar la descripción semántica más cercana a las características visuales extraídas, el modelo puede clasificar correctamente la imagen como una "cebra", incluso sin una sola imagen de entrenamiento de una. Este proceso suele basarse en potentes modelos multimodales preentrenados como el CLIP de OpenAI, que destaca por conectar la visión y el lenguaje.

Aprendizaje Cero Vs. Otros paradigmas

Es importante distinguir la ZSL de otras técnicas de aprendizaje afines:

  • Aprendizaje con Pocos Tiros (FSL): En el FSL, el modelo se entrena con un número muy pequeño de ejemplos etiquetados (por ejemplo, de 1 a 5) para cada nueva clase. Esto difiere del ZSL, que funciona con cero ejemplos de la clase objetivo.
  • Aprendizaje en una sola sesión (OSL): Subtipo de FSL en el que el modelo recibe exactamente un ejemplo de una nueva clase. Está más limitado por los datos que el FSL general, pero sigue necesitando al menos una muestra, a diferencia del ZSL.
  • Transferencia de aprendizaje: ZSL es una forma de aprendizaje por transferencia, pero única. Mientras que el aprendizaje por transferencia estándar suele consistir en afinar un modelo preentrenado en un nuevo conjunto de datos etiquetados (más pequeño), el ZSL transfiere conocimientos a nuevas clases utilizando únicamente información semántica auxiliar, sin necesidad de ejemplos etiquetados de esas clases.

Aplicaciones reales

La ZSL tiene numerosas aplicaciones prácticas, lo que hace que los sistemas de visión por ordenador sean más dinámicos y adaptables.

  1. Detección de objetos de vocabulario abierto: Modelos como YOLO-World aprovechan ZSL para detectar cualquier objeto descrito por texto. Un usuario puede proporcionar indicaciones de texto como "persona con camisa azul" o "tubería con fugas", y el modelo puede localizar estos objetos en una imagen o secuencia de vídeo sin tener que entrenarse explícitamente en esas categorías específicas. Se trata de un paso importante hacia la creación de sistemas de visión realmente polivalentes.
  2. Identificación autónoma de especies: En la IA para la conservación de la vida salvaje, ZSL puede identificar especies raras o recién descubiertas. Un modelo entrenado en animales comunes puede utilizar atributos descriptivos (por ejemplo, "tiene el cuello largo", "tiene manchas", "es herbívoro") de una base de conocimientos como Wikipedia para identificar una jirafa, aunque no hubiera imágenes de jirafas en su conjunto de entrenamiento original.

Retos y perspectivas

A pesar de su potencial, el ZSL se enfrenta a retos como el problema de los nodos (en el que algunos puntos del espacio semántico se convierten en vecinos más cercanos de demasiados puntos) y el cambio de dominio (en el que las relaciones entre características y atributos difieren entre clases vistas y no vistas). Para hacer frente a estos problemas, los investigadores están desarrollando técnicas más robustas, como el Aprendizaje Generalizado de Cero Disparos (GZSL), en el que el modelo debe reconocer tanto las clases vistas como las no vistas durante la inferencia. La evolución de los modelos de base y de plataformas como Ultralytics HUB simplificará aún más la integración y el despliegue del ZSL, haciendo que los sistemas de IA dependan menos del etiquetado exhaustivo de datos y se ajusten más al razonamiento humano.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles