Descubra Zero-Shot Learning: un enfoque de IA de vanguardia que permite a los modelos clasificar datos no vistos, revolucionando la detección de objetos, la PNL y mucho más.
El aprendizaje cero (ZSL, Zero-Shot Learning) es una fascinante capacidad del aprendizaje automático (ML, Machine Learning) por la que un modelo puede reconocer y clasificar objetos de categorías que nunca ha visto durante su fase de datos de entrenamiento. A diferencia del aprendizaje supervisado tradicional, que requiere ejemplos explícitos para cada clase posible, el ZSL permite a un modelo generalizar sus conocimientos a clases nuevas y nunca vistas. Esto se consigue asociando clases observadas y no observadas mediante descripciones semánticas de alto nivel, como atributos o incrustaciones de texto. Esto permite que un modelo de IA sea más flexible y escalable, especialmente en situaciones reales en las que la recopilación exhaustiva de datos etiquetados es poco práctica.
La idea central de ZSL es crear un espacio de incrustación compartido en el que puedan representarse tanto las características visuales de las imágenes como la información semántica del texto. Durante el entrenamiento, el modelo aprende a asignar imágenes de clases vistas a sus correspondientes vectores semánticos (atributos o incrustaciones de palabras). Por ejemplo, el modelo aprende las características visuales de un "caballo" y las vincula a una descripción semántica como "tiene cuatro patas", "es un mamífero" y "se puede montar".
Cuando se le presenta una imagen de una clase desconocida, como una "cebra", el modelo extrae sus características visuales. Al mismo tiempo, utiliza la descripción semántica de una "cebra" -por ejemplo, "tiene forma de caballo", "tiene rayas"- para localizarla en el espacio de incrustación. Al encontrar la descripción semántica más cercana a las características visuales extraídas, el modelo puede clasificar correctamente la imagen como una "cebra", incluso sin una sola imagen de entrenamiento de una. Este proceso suele basarse en potentes modelos multimodales preentrenados como el CLIP de OpenAI, que destaca por conectar la visión y el lenguaje.
Es importante distinguir la ZSL de otras técnicas de aprendizaje afines:
La ZSL tiene numerosas aplicaciones prácticas, lo que hace que los sistemas de visión por ordenador sean más dinámicos y adaptables.
A pesar de su potencial, el ZSL se enfrenta a retos como el problema de los nodos (en el que algunos puntos del espacio semántico se convierten en vecinos más cercanos de demasiados puntos) y el cambio de dominio (en el que las relaciones entre características y atributos difieren entre clases vistas y no vistas). Para hacer frente a estos problemas, los investigadores están desarrollando técnicas más robustas, como el Aprendizaje Generalizado de Cero Disparos (GZSL), en el que el modelo debe reconocer tanto las clases vistas como las no vistas durante la inferencia. La evolución de los modelos de base y de plataformas como Ultralytics HUB simplificará aún más la integración y el despliegue del ZSL, haciendo que los sistemas de IA dependan menos del etiquetado exhaustivo de datos y se ajusten más al razonamiento humano.