Verificação verde
Link copiado para a área de transferência

Compreender os modelos de linguagem de visão e as suas aplicações

Aprende sobre os modelos de linguagem visual, como funcionam e as suas várias aplicações na IA. Descobre como estes modelos combinam capacidades visuais e de linguagem.

Num artigo anterior, explorámos a forma como o GPT-4o pode compreender e descrever imagens usando palavras. Também estamos a ver esta capacidade noutros modelos novos, como o Google Gemini e o Claude 3. Hoje, vamos aprofundar este conceito para explicar como funcionam os modelos de linguagem de visão e como combinam dados visuais e textuais. 

Estes modelos podem ser utilizados para realizar uma série de tarefas impressionantes, como gerar legendas detalhadas para fotografias, responder a perguntas sobre imagens e até criar novos conteúdos visuais com base em descrições textuais. Ao integrar perfeitamente a informação visual e linguística, os Modelos de Linguagem Visual estão a mudar a forma como interagimos com a tecnologia e compreendemos o mundo à nossa volta.

Como funcionam os modelos de linguagem de visão

Antes de analisarmos onde podem ser utilizados os modelos de visão e linguagem (VLMs), vamos perceber o que são e como funcionam. Os VLMs são modelos avançados de IA que combinam as capacidades dos modelos de visão e de linguagem para lidar com imagens e texto. Estes modelos recebem imagens juntamente com as suas descrições de texto e aprendem a ligar os dois. A parte visual do modelo capta os pormenores das imagens, enquanto a parte linguística compreende o texto. Este trabalho de equipa permite que os VLMs compreendam e analisem tanto as imagens como o texto.

Eis as principais capacidades dos Modelos de Linguagem de Visão:

  • Legenda de imagens: Gera texto descritivo com base no conteúdo das imagens.
  • Resposta a perguntas visuais (VQA): Responde a perguntas relacionadas com o conteúdo de uma imagem.
  • Texto paraGeração de imagens: Cria imagens com base em descrições textuais.
  • Recuperação Imagem-Texto: Encontra imagens relevantes para uma determinada consulta de texto e vice-versa.
  • Criação de conteúdo multimodal: Combina imagens e texto para gerar novos conteúdos.
  • Compreensão de cenas e Deteção de objectos: Identifica e categoriza objectos e detalhes dentro de uma imagem.
Figura 1. Um exemplo das capacidades de um modelo de linguagem de visão.

Em seguida, vamos explorar as arquitecturas comuns de MLV e as técnicas de aprendizagem utilizadas por modelos bem conhecidos como o CLIP, o SimVLM e o VisualGPT.

Aprendizagem Contrastiva

A aprendizagem contrastiva é uma técnica que ajuda os modelos a aprenderem através da comparação das diferenças entre pontos de dados. Calcula quão semelhantes ou diferentes são as instâncias e procura minimizar a perda contrastiva, que mede essas diferenças. É especialmente útil na aprendizagem semi-supervisionada, em que um pequeno conjunto de exemplos rotulados orienta o modelo para rotular dados novos e não vistos. Por exemplo, para compreender o aspeto de um gato, o modelo compara-o com imagens semelhantes de gatos e cães. Ao identificar características como a estrutura facial, o tamanho do corpo e o pelo, as técnicas de aprendizagem contrastiva podem distinguir entre um gato e um cão.

Figura 2. Como funciona a aprendizagem contrastiva.

O CLIP é um modelo de visão-linguagem que utiliza a aprendizagem contrastiva para fazer corresponder as descrições de texto às imagens. Funciona em três passos simples. Primeiro, treina as partes do modelo que compreendem tanto texto como imagens. Em segundo lugar, converte as categorias de um conjunto de dados em descrições de texto. Em terceiro lugar, identifica a melhor descrição correspondente para uma determinada imagem. Graças a este método, o modelo CLIP pode fazer previsões precisas mesmo para tarefas para as quais não foi especificamente treinado.

PrefixoLM

PrefixLM é uma técnica de processamento de linguagem natural (NLP) utilizada para treinar modelos. Começa com parte de uma frase (um prefixo) e aprende a prever a palavra seguinte. Nos modelos de visão-linguagem, o PrefixLM ajuda o modelo a prever as palavras seguintes com base numa imagem e num determinado texto. Utiliza um transformador de visão (ViT), que divide uma imagem em pequenos fragmentos, cada um representando uma parte da imagem, e processa-os em sequência. 

Fig. 3. Um exemplo de treino de um VLM que utiliza a técnica PrefixLM.

O SimVLM é um VLM que utiliza a técnica de aprendizagem PrefixLM. Utiliza uma arquitetura de transformador mais simples do que os modelos anteriores, mas obtém melhores resultados em vários testes. A arquitetura do modelo envolve a aprendizagem da associação de imagens com prefixos de texto utilizando um codificador de transformador e, em seguida, a geração de texto utilizando um descodificador de transformador. 

Fusão multimodal com atenção cruzada

A fusão multimodal com atenção cruzada é uma técnica que melhora a capacidade de um modelo de linguagem de visão pré-treinado para compreender e processar dados visuais. Funciona adicionando camadas de atenção cruzada ao modelo, o que lhe permite prestar atenção a informações visuais e textuais ao mesmo tempo. 

Vê como funciona: 

  • Os principais objectos de uma imagem são identificados e realçados. 
  • Os objectos realçados são processados por um codificador visual, traduzindo a informação visual para um formato que o modelo possa compreender. 
  • A informação visual é transmitida a um descodificador, que interpreta a imagem utilizando o conhecimento do modelo de linguagem pré-treinado.

O VisualGPT é um bom exemplo de um modelo que utiliza esta técnica. Inclui uma caraterística especial chamada unidade de ativação auto-recuperável (SRAU), que ajuda o modelo a evitar um problema comum chamado gradientes de desaparecimento. Os gradientes de desaparecimento podem fazer com que os modelos percam informações importantes durante o treinamento, mas a SRAU mantém o desempenho do modelo forte. 

Fig. 4. Arquitetura do modelo VisualGPT.

Aplicações de modelos de linguagem de visão

Os modelos de visão da linguagem estão a ter impacto numa série de indústrias. Desde melhorar as plataformas de comércio eletrónico até tornar a Internet mais acessível, as potenciais utilizações dos VLMs são empolgantes. Vamos explorar algumas destas aplicações.

Gerar descrições de produtos

Quando faz compras online, vê descrições detalhadas de cada produto, mas a criação dessas descrições pode consumir muito tempo. Os VLMs simplificam este processo, automatizando a criação destas descrições. Os retalhistas online podem gerar diretamente descrições detalhadas e precisas a partir de imagens de produtos utilizando Modelos de Linguagem Visual. 

As descrições de produtos de elevada qualidade ajudam os motores de busca a identificar produtos com base em atributos específicos mencionados na descrição. Por exemplo, uma descrição que contenha "manga comprida" e "gola de algodão" ajuda os clientes a encontrar mais facilmente uma "camisa de algodão de manga comprida". Também ajuda os clientes a encontrar rapidamente o que pretendem e, por sua vez, aumenta as vendas e a satisfação dos clientes.

Figura 5. Um exemplo de uma descrição de produto gerada por IA. 

Os modelos de IA generativa, como o BLIP-2, são exemplos de VLM sofisticados que podem prever atributos de produtos diretamente a partir de imagens. O BLIP-2 utiliza vários componentes para compreender e descrever com precisão os produtos de comércio eletrónico. Começa por processar e compreender os aspectos visuais do produto com um codificador de imagem. Depois, um transformador de consulta interpreta esta informação visual no contexto de perguntas ou tarefas específicas. Por fim, um modelo de linguagem de grande dimensão gera descrições detalhadas e precisas dos produtos.

Tornar a Internet mais acessível

Os modelos de linguagem visual podem tornar a Internet mais acessível através da legendagem de imagens, especialmente para pessoas com deficiência visual. Tradicionalmente, os utilizadores têm de introduzir descrições de conteúdos visuais em sítios Web e redes sociais. Por exemplo, quando publicas no Instagram, podes adicionar texto alternativo para leitores de ecrã. No entanto, os VLMs podem automatizar este processo. 

Quando um VLM vê uma imagem de um gato sentado num sofá, pode gerar a legenda "Um gato sentado num sofá", tornando a cena clara para os utilizadores com deficiência visual. Os VLMs utilizam técnicas como a solicitação de poucos disparos, em que aprendem com alguns exemplos de pares imagem-legenda, e a solicitação de cadeia de pensamento, que os ajuda a decompor logicamente cenas complexas. Estas técnicas tornam as legendas geradas mais coerentes e pormenorizadas.

Fig. 6. Utiliza a IA para gerar legendas de imagens.

GooglePara este efeito, a funcionalidade"Obter descrições de imagens de Google" no Chrome gera automaticamente descrições para imagens sem texto alternativo. Embora estas descrições geradas por IA possam não ser tão detalhadas como as escritas por humanos, continuam a fornecer informações valiosas.

Vantagens e limitações dos modelos de linguagem visual

Os modelos de visão da linguagem (VLM) oferecem muitas vantagens ao combinarem dados visuais e textuais. Algumas das principais vantagens incluem:

  • Melhor interação homem-máquina: Permite que os sistemas compreendam e respondam a entradas visuais e textuais, melhorando os assistentes virtuais, os chatbots e a robótica.
  • Diagnóstico e análise avançados: Ajuda na área médica, analisando imagens e gerando descrições, apoiando os profissionais de saúde com segundas opiniões e deteção de anomalias.
  • Narrativas e entretenimento interactivos: Gera narrativas envolventes combinando entradas visuais e textuais para melhorar as experiências do utilizador em jogos e realidade virtual.

Apesar das suas capacidades impressionantes, os modelos de visão da linguagem também têm algumas limitações. Eis alguns aspectos a ter em conta quando se trata de VLMs:

  • Elevados requisitos computacionais: O treino e a implementação de VLMs requerem recursos computacionais substanciais, tornando-os dispendiosos e menos acessíveis.
  • Dependência de dados e enviesamento: Os VLMs podem produzir resultados enviesados se forem treinados em conjuntos de dados não diversificados ou enviesados, o que pode perpetuar estereótipos e desinformação.
  • Compreensão limitada do contexto: Os VLMs podem ter dificuldade em compreender o panorama geral ou o contexto e gerar resultados demasiado simplificados ou incorrectos.

Principais conclusões

Os modelos de visão da linguagem têm um potencial incrível em muitos domínios, como o comércio eletrónico e os cuidados de saúde. Ao combinarem dados visuais e textuais, podem impulsionar a inovação e transformar as indústrias. No entanto, é essencial desenvolver estas tecnologias de forma responsável e ética para garantir que são utilizadas de forma justa. À medida que os VLMs continuarem a evoluir, melhorarão tarefas como a pesquisa baseada em imagens e as tecnologias de assistência. 

Para continuar a aprender sobre IA, liga-te à nossa comunidade! Explora o nosso repositório GitHub para veres como estamos a utilizar a IA para criar soluções inovadoras em indústrias como o fabrico e os cuidados de saúde. 🚀

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática