Glosario

Aprendizaje de tiro cero

Descubre el Aprendizaje Cero Disparos: un enfoque de IA de vanguardia que permite a los modelos clasificar datos invisibles, revolucionando la detección de objetos, la PNL y mucho más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El Aprendizaje Cero (ZSL) es un área fascinante dentro del Aprendizaje Automático (AM ) en la que se entrena a un modelo para que reconozca objetos o conceptos que nunca ha visto explícitamente durante el entrenamiento. A diferencia de los métodos tradicionales de aprendizaje supervisado, que requieren numerosos ejemplos etiquetados para cada categoría posible, el ZSL permite a los modelos hacer predicciones sobre clases no vistas aprovechando la información auxiliar que describe estas nuevas clases. Esta capacidad es crucial para construir sistemas de Inteligencia Artificial (IA) más adaptables y escalables, especialmente en dominios en los que obtener datos etiquetados para cada categoría concebible es poco práctico o imposible.

Cómo funciona el Aprendizaje Cero Tiros

La idea central de la ZSL es salvar la distancia entre las clases vistas y no vistas utilizando un espacio semántico compartido. Este espacio suele basarse en descripciones de alto nivel, atributos o incrustaciones derivadas de textos o bases de conocimiento. Durante el entrenamiento, el modelo aprende una correspondencia entre los datos de entrada (como imágenes o texto) y este espacio semántico, utilizando sólo ejemplos de las clases "vistas". Por ejemplo, un modelo podría aprender a asociar imágenes de caballos y tigres (clases vistas) con sus atributos correspondientes (por ejemplo, "tiene pezuñas", "tiene rayas", "es un mamífero").

Cuando se le presenta una instancia de una clase no vista (por ejemplo, una cebra), el modelo extrae sus características y las mapea en el espacio semántico aprendido. A continuación, compara este mapeo con las descripciones semánticas de las clases no vistas (por ejemplo, los atributos "tiene rayas", "tiene pezuñas", "es un mamífero" que describen a una cebra). La clase cuya descripción semántica más se aproxime en este espacio se elige como predicción. Este proceso suele implicar técnicas de aprendizaje profundo (deep learning, DL), utilizando arquitecturas como las Redes Neuronales Convolucionales (Convolutional Neural Networks, CNN) para la extracción de características y funciones de mapeo para relacionar las características visuales con los atributos semánticos, a veces aprovechando conceptos de Transformadores de Visión (Vision Transformers, ViT) o modelos como CLIP.

Diferencias clave con conceptos similares

Es importante distinguir la ZSL de los paradigmas de aprendizaje relacionados:

Aplicaciones en el mundo real

La ZSL tiene un gran potencial en varios campos:

  1. Visión por ordenador (CV) - Reconocimiento de objetos de grano fino: Identificación de especies raras de animales, plantas o modelos de productos específicos en imágenes en las que los datos de entrenamiento son escasos. Por ejemplo, un sistema entrenado en aves comunes podría identificar una especie rara basándose en una descripción textual de su plumaje, forma del pico y hábitat, incluso sin ejemplos visuales previos. Esto amplía las capacidades más allá de la detección de objetos estándar o la clasificación de imágenes entrenadas sólo en clases vistas. Los modelos como YOLO se basan en ideas similares para la detección de vocabulario abierto.
  2. Procesamiento del Lenguaje Natural (PLN ) - Identificación de Temas y Reconocimiento de Intenciones: Clasificación de documentos, correos electrónicos o consultas de usuarios en temas o intenciones nuevos y emergentes no presentes en el conjunto de datos de entrenamiento inicial. Por ejemplo, un chatbot de atención al cliente podría clasificar una consulta sobre una característica de un producto recién lanzado utilizando la descripción de la característica, sin necesidad de ejemplos de entrenamiento explícitos de tales consultas. Esto aprovecha la potencia de los Grandes Modelos Lingüísticos (LLM ) como el GPT-4.

Retos y orientaciones futuras

A pesar de sus promesas, el ZSL se enfrenta a retos como el problema de la centralidad (en el que algunos puntos del espacio semántico se convierten en vecinos más cercanos de muchos puntos) y el cambio de dominio (en el que la relación entre características y atributos difiere entre clases vistas y no vistas). La investigación sigue explorando incrustaciones semánticas más robustas, mejores funciones de mapeo y técnicas como el Aprendizaje Generalizado de Disparo Cero (GZSL), cuyo objetivo es reconocer tanto las clases vistas como las no vistas durante la inferencia. El desarrollo de plataformas como Ultralytics HUB podría facilitar la integración y el despliegue de las capacidades ZSL en aplicaciones prácticas de IA de visión. Otros avances podrían inspirarse en modelos multimodales que vinculan intrínsecamente la visión y el lenguaje.

Leer todo