Glosario

CLIP (Preentrenamiento Contrastivo Lenguaje-Imagen)

Descubre cómo el CLIP de OpenAI revoluciona la IA con el aprendizaje sin disparos, la alineación imagen-texto y las aplicaciones en el mundo real de la visión por ordenador.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

CLIP (Contrastive Language-Image Pre-training) es una red neuronal desarrollada por OpenAI que aprende conceptos visuales directamente a partir de descripciones en lenguaje natural. En lugar de basarse en conjuntos de datos curados con etiquetas predefinidas, como los modelos tradicionales de clasificación de imágenes, CLIP se entrena con una amplia colección de pares imagen-texto recogidos de Internet. Utiliza una técnica llamada aprendizaje contrastivo para comprender la relación entre las imágenes y las palabras utilizadas para describirlas. Esto permite que el CLIP funcione extraordinariamente bien en tareas para las que no ha sido entrenado explícitamente, una capacidad conocida como aprendizaje sin disparos.

Cómo funciona Clip

La arquitectura de CLIP consta de dos componentes principales: un codificador de imágenes y un codificador de texto. El codificador de imágenes, a menudo basado en arquitecturas como Vision Transformer (ViT) o ResNet, procesa las imágenes para captar sus características visuales. Simultáneamente, el codificador de texto, normalmente un modelo Transformer similar a los utilizados en el Procesamiento del Lenguaje Natural (PLN), procesa las descripciones de texto correspondientes para extraer el significado semántico. Durante el entrenamiento, el modelo aprende a crear representaciones (incrustaciones) tanto para las imágenes como para el texto dentro de un espacio compartido. El objetivo es maximizar la puntuación de similitud entre las incrustaciones de los pares imagen-texto correctos y minimizar la similitud de los pares incorrectos dentro de un lote. Este objetivo contrastivo enseña al modelo a asociar eficazmente los elementos visuales con sus homólogos textuales.

Principales características y ventajas

La característica más destacada de CLIP es su potente capacidad de aprendizaje sin disparos. Como aprende una relación general entre las imágenes y el lenguaje, puede clasificar imágenes basándose en descripciones de texto nuevas, no vistas, sin necesidad de entrenamiento adicional. Por ejemplo, aunque CLIP nunca haya visto una imagen etiquetada como "sillón de aguacate" durante el entrenamiento, podría identificarla si se le proporcionara ese texto, basándose en sus asociaciones aprendidas entre estilos visuales, objetos (como aguacates y sillones) y palabras descriptivas. Esto hace que CLIP sea muy flexible y adaptable a diversas tareas de visión por ordenador (VC ), consiguiendo a menudo un gran rendimiento incluso en comparación con modelos entrenados específicamente en conjuntos de datos de referencia como ImageNet.

Aplicaciones en el mundo real

Las capacidades únicas de CLIP permiten varias aplicaciones prácticas:

  • Búsqueda y recuperación de imágenes: Los sistemas pueden utilizar CLIP para permitir a los usuarios buscar en vastas bibliotecas de imágenes utilizando consultas de texto libre (por ejemplo, "muéstrame fotos de puestas de sol sobre montañas") en lugar de basarse únicamente en etiquetas predefinidas. Plataformas como Unsplash han explorado el uso de CLIP para mejorar la búsqueda de imágenes.
  • Moderación de contenidos: CLIP puede identificar imágenes que contengan conceptos específicos descritos textualmente (por ejemplo, "representaciones de violencia" o "incumplimiento de las directrices de la marca") sin necesidad de grandes conjuntos de datos etiquetados explícitamente para cada posible categoría de infracción. Esto ofrece un enfoque más flexible del filtrado de contenidos.

Clip frente a otros modelos

CLIP difiere significativamente de otros modelos habituales de IA:

  • Clasificadores de imágenes tradicionales: Estos modelos (a menudo entrenados mediante aprendizaje supervisado) suelen requerir datos etiquetados para cada categoría específica que necesitan reconocer y tienen dificultades con conceptos fuera de su conjunto de entrenamiento. La naturaleza de disparo cero de CLIP supera esta limitación.
  • Detectores de objetos: Modelos como Ultralytics YOLO se centran en identificar y localizar múltiples objetos dentro de una imagen mediante cuadros delimitadores, mientras que CLIP se centra principalmente en comprender el contenido de la imagen en su conjunto en relación con el texto.
  • Otros modelos multimodales: Aunque los modelos para tareas como la respuesta a preguntas visuales (VQA) o el subtitulado de imágenes también procesan imágenes y texto, a menudo se entrenan para formatos específicos de entrada-salida (por ejemplo, responder a una pregunta, generar un pie de foto). CLIP aprende un mapeo más general y flexible entre conceptos visuales y textuales. Puedes obtener más información sobre los distintos modelos de lenguaje visual en el blog Ultralytics .

Limitaciones y orientaciones futuras

A pesar de sus puntos fuertes, CLIP tiene limitaciones. Su comprensión puede verse afectada por los sesgos presentes en los vastos datos de la web sin depurar con los que se entrenó, lo que puede dar lugar a problemas relacionados con la equidad en la IA. También puede tener problemas con tareas que requieran un reconocimiento de detalles muy precisos, razonamiento espacial o contar objetos con exactitud. La investigación en curso se centra en mitigar los sesgos, mejorar la comprensión detallada y explorar formas de combinar el conocimiento semántico de CLIP con las capacidades de localización espacial de modelos como YOLO. Puedes seguir los últimos avances en IA en el blogUltralytics . El entrenamiento y despliegue de modelos, incluida la posible combinación de características de diferentes arquitecturas, puede gestionarse mediante plataformas como Ultralytics HUB.

Leer todo