Glosario

CLIP (Preentrenamiento Contrastivo Lenguaje-Imagen)

Descubre cómo el CLIP de OpenAI revoluciona la IA con el aprendizaje sin disparos, la alineación imagen-texto y las aplicaciones en el mundo real de la visión por ordenador.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

CLIP (Contrastive Language-Image Pre-training) es una red neuronal desarrollada por OpenAI que aprende conceptos visuales a partir de la supervisión del lenguaje natural. A diferencia de los modelos tradicionales de visión por ordenador que se entrenan con conjuntos fijos de categorías predeterminadas, CLIP puede comprender y categorizar imágenes basándose en una amplia gama de descripciones textuales. Esto se consigue entrenando el modelo en un conjunto de datos masivo de pares imagen-texto extraídos de Internet, lo que le permite aprender un espacio de representación compartido en el que las imágenes y sus correspondientes descripciones de texto están estrechamente alineadas. Este enfoque innovador permite a CLIP realizar un "aprendizaje sin disparos", lo que significa que puede clasificar con precisión imágenes en categorías que nunca ha visto explícitamente durante el entrenamiento, simplemente comprendiendo la descripción textual de esas categorías.

Cómo funciona CLIP

La arquitectura de CLIP consta de dos componentes principales: un codificador de imágenes y un codificador de texto. El codificador de imágenes, normalmente un Transformador de Visión (ViT) o una Red Residual (ResNet), procesa las imágenes y extrae sus características visuales. El codificador de texto, a menudo un modelo Transformer similar a los utilizados en el procesamiento del lenguaje natural (PLN), procesa las descripciones de texto correspondientes y extrae sus características semánticas. Durante el entrenamiento, a CLIP se le presenta un lote de pares imagen-texto. El objetivo del modelo es maximizar la similitud entre las representaciones codificadas de las imágenes y sus descripciones textuales correctas, minimizando al mismo tiempo la similitud entre las imágenes y las descripciones textuales incorrectas. Esto se consigue mediante una función de pérdida contrastiva, que anima al modelo a aprender un espacio de incrustación compartido en el que las imágenes y los textos relacionados están cerca, y los no relacionados están lejos.

Principales características y ventajas

Una de las ventajas más significativas de CLIP es su capacidad para realizar un aprendizaje sin disparos. Como aprende a asociar imágenes con una amplia gama de conceptos textuales, puede generalizar a nuevas categorías no vistas durante el entrenamiento. Por ejemplo, si CLIP ha sido entrenado en imágenes de gatos y perros con sus respectivas etiquetas, puede clasificar potencialmente una imagen de un "gato con sombrero" aunque nunca haya visto una imagen explícitamente etiquetada como tal. Esta capacidad hace que CLIP sea muy adaptable y versátil para diversas tareas de visión por ordenador (VC). Además, el rendimiento de CLIP a menudo supera al de los modelos supervisados entrenados en conjuntos de datos específicos, especialmente cuando esos conjuntos de datos son limitados en tamaño o diversidad. Esto se debe a que CLIP aprovecha una gran cantidad de datos de preentrenamiento de Internet, lo que le proporciona una comprensión más amplia de los conceptos visuales.

Aplicaciones en el mundo real

Las capacidades únicas de CLIP han llevado a su adopción en diversas aplicaciones del mundo real. Dos ejemplos notables son:

  1. Búsqueda y recuperación de imágenes: CLIP puede utilizarse para construir potentes motores de búsqueda de imágenes que comprendan las consultas en lenguaje natural. Por ejemplo, un usuario puede buscar "una foto de una puesta de sol sobre el océano", y el sistema, impulsado por CLIP, puede recuperar imágenes relevantes aunque no estén etiquetadas explícitamente con esas palabras clave. Esto se consigue codificando tanto el texto de la consulta como las imágenes de la base de datos en el espacio de incrustación compartido y encontrando las imágenes cuyas incrustaciones se aproximen más a la incrustación de la consulta.
  2. Moderación y filtrado de contenidos: CLIP puede emplearse para detectar y filtrar automáticamente contenidos inapropiados o perjudiciales en línea. Al comprender la relación semántica entre imágenes y texto, CLIP puede identificar imágenes asociadas a discursos de odio, violencia u otros contenidos indeseables, aunque las propias imágenes no contengan marcadores visuales explícitos. Esta capacidad es valiosa para las plataformas de redes sociales, los mercados en línea y otras plataformas que trabajan con contenidos generados por los usuarios.

CLIP y otros modelos

Aunque CLIP comparte algunas similitudes con otros modelos multimodales, destaca por su enfoque en el aprendizaje contrastivo y sus capacidades de disparo cero. Los modelos como los sistemas de respuesta a preguntas visuales (VQA ) también procesan tanto imágenes como texto, pero suelen entrenarse para responder a preguntas concretas sobre una imagen en lugar de aprender un espacio de representación compartido de uso general. Del mismo modo, aunque modelos como los sistemas de subtitulado de imágenes generan descripciones de texto para las imágenes, a menudo se basan en un entrenamiento supervisado sobre conjuntos de datos emparejados de imágenes y subtítulos, y puede que no generalicen tan bien a conceptos no vistos como lo hace CLIP. La capacidad de CLIP para comprender una amplia gama de conceptos visuales a partir de descripciones en lenguaje natural, sin entrenamiento explícito sobre esos conceptos, lo convierte en una poderosa herramienta para diversas aplicaciones en IA y aprendizaje automático. Puedes obtener más información sobre modelos de lenguaje de visión relacionados en el blog Ultralytics .

Limitaciones y orientaciones futuras

A pesar de sus impresionantes capacidades, el CLIP no está exento de limitaciones. Un reto es su dependencia de la calidad y diversidad de los datos de preentrenamiento. Los sesgos presentes en los datos pueden reflejarse en las representaciones aprendidas del modelo, dando lugar potencialmente a predicciones injustas o inexactas. Los investigadores están trabajando activamente en métodos para mitigar estos sesgos y mejorar la imparcialidad de modelos como el CLIP. Otra área de investigación en curso es la mejora de la capacidad de CLIP para comprender detalles visuales precisos y conceptos compositivos complejos. Aunque CLIP destaca en la captación de conceptos visuales generales, puede tener dificultades en tareas que requieran un razonamiento espacial preciso o la comprensión de intrincadas relaciones entre objetos. Se espera que los futuros avances en la arquitectura de modelos, las técnicas de entrenamiento y la conservación de datos aborden estas limitaciones y mejoren aún más las capacidades de modelos como CLIP. Por ejemplo, la integración de CLIP con modelos como Ultralytics YOLO podría dar lugar a sistemas más robustos y versátiles para diversas aplicaciones del mundo real. Puedes mantenerte al día sobre lo último en IA explorando el blogUltralytics .

Leer todo