Glossário

CLIP (Contrastive Language-Image Pre-training)

Descobre como o CLIP da OpenAI revoluciona a IA com aprendizagem sem disparos, alinhamento imagem-texto e aplicações do mundo real na visão computacional.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

CLIP (Contrastive Language-Image Pre-training) é uma rede neural desenvolvida pela OpenAI que aprende conceitos visuais diretamente a partir de descrições de linguagem natural. Em vez de se basear em conjuntos de dados com etiquetas predefinidas, como os modelos tradicionais de classificação de imagens, o CLIP é treinado numa vasta coleção de pares imagem-texto recolhidos na Internet. Utiliza uma técnica chamada aprendizagem contrastiva para compreender a relação entre as imagens e as palavras utilizadas para as descrever. Isto permite ao CLIP ter um desempenho notável em tarefas para as quais não foi explicitamente treinado, uma capacidade conhecida como aprendizagem zero-shot.

Como funciona o Clip

A arquitetura do CLIP envolve dois componentes principais: um codificador de imagem e um codificador de texto. O codificador de imagem, muitas vezes baseado em arquitecturas como o Vision Transformer (ViT) ou o ResNet, processa imagens para capturar as suas caraterísticas visuais. Simultaneamente, o codificador de texto, normalmente um modelo Transformer semelhante aos utilizados no Processamento de Linguagem Natural (PLN), processa as descrições de texto correspondentes para extrair o significado semântico. Durante o treino, o modelo aprende a criar representações (embeddings) para imagens e texto num espaço partilhado. O objetivo é maximizar a pontuação de semelhança entre as incorporações dos pares imagem-texto corretos e minimizar a semelhança dos pares incorrectos dentro de um lote. Este objetivo contrastivo ensina o modelo a associar eficazmente elementos visuais aos seus equivalentes textuais.

Principais caraterísticas e vantagens

A caraterística mais marcante do CLIP é a sua poderosa capacidade de aprendizagem zero-shot. Uma vez que aprende uma relação geral entre imagens e linguagem, pode classificar imagens com base em novas descrições de texto não vistas, sem necessitar de formação adicional. Por exemplo, mesmo que o CLIP nunca tenha visto uma imagem com o rótulo "uma poltrona de abacate" durante o treino, poderia potencialmente identificar uma se lhe fosse fornecido esse texto, baseando-se nas suas associações aprendidas entre estilos visuais, objectos (como abacates e poltronas) e palavras descritivas. Isto torna o CLIP altamente flexível e adaptável a várias tarefas de visão computacional (CV), atingindo frequentemente um bom desempenho mesmo em comparação com modelos treinados especificamente em conjuntos de dados de referência como o ImageNet.

Aplicações no mundo real

As capacidades únicas do CLIP permitem várias aplicações práticas:

  • Pesquisa e recuperação de imagens: Os sistemas podem utilizar o CLIP para permitir que os utilizadores pesquisem vastas bibliotecas de imagens utilizando consultas de texto de forma livre (por exemplo, "mostra-me imagens de pores-do-sol sobre montanhas") em vez de se basearem apenas em etiquetas predefinidas. Plataformas como o Unsplash exploraram a utilização do CLIP para melhorar a pesquisa de imagens.
  • Moderação de conteúdos: O CLIP pode identificar imagens que contenham conceitos específicos descritos textualmente (por exemplo, "representações de violência" ou "não conformidade com as diretrizes da marca") sem necessitar de grandes conjuntos de dados explicitamente rotulados para cada categoria de violação possível. Isto oferece uma abordagem mais flexível à filtragem de conteúdos.

Clip vs. Outros modelos

O CLIP difere significativamente de outros modelos comuns de IA:

  • Classificadores de imagem tradicionais: Estes modelos (frequentemente treinados através de aprendizagem supervisionada) requerem normalmente dados rotulados para cada categoria específica que necessitam de reconhecer e têm dificuldades com conceitos fora do seu conjunto de treino. A natureza de zero-shot do CLIP supera esta limitação.
  • Detectores de objectos: Modelos como Ultralytics YOLO concentram-se na identificação e localização de vários objectos dentro de uma imagem utilizando caixas delimitadoras, enquanto o CLIP se concentra principalmente na compreensão do conteúdo da imagem como um todo em relação ao texto.
  • Outros modelos multimodais: Embora os modelos para tarefas como a Resposta a Perguntas Visuais (VQA) ou a Legenda de Imagens também processem imagens e texto, são frequentemente treinados para formatos específicos de entrada-saída (por exemplo, responder a uma pergunta, gerar uma legenda). O CLIP aprende um mapeamento flexível e de objetivo mais geral entre conceitos visuais e textuais. Podes saber mais sobre os diferentes modelos de linguagem de visão no blogue Ultralytics .

Limitações e direcções futuras

Apesar dos seus pontos fortes, o CLIP tem limitações. A sua compreensão pode ser afetada pelos enviesamentos presentes nos vastos dados da Web não curados em que foi treinado, o que pode levar a questões relacionadas com a equidade na IA. Também pode ter dificuldades em tarefas que exijam o reconhecimento de detalhes muito finos, raciocínio espacial ou contagem de objectos com precisão. A investigação em curso centra-se na atenuação de enviesamentos, na melhoria da compreensão de pormenor e na exploração de formas de combinar o conhecimento semântico do CLIP com as capacidades de localização espacial de modelos como o YOLO. Podes acompanhar os últimos desenvolvimentos em IA no blogueUltralytics . O treino e a implementação de modelos, incluindo a potencial combinação de caraterísticas de diferentes arquitecturas, podem ser geridos utilizando plataformas como o Ultralytics HUB.

Lê tudo