Aprende sobre os modelos de linguagem visual, como funcionam e as suas várias aplicações na IA. Descobre como estes modelos combinam capacidades visuais e de linguagem.
Num artigo anterior, explorámos a forma como o GPT-4o pode compreender e descrever imagens usando palavras. Também estamos a ver esta capacidade noutros modelos novos, como o Google Gemini e o Claude 3. Hoje, vamos aprofundar este conceito para explicar como funcionam os modelos de linguagem de visão e como combinam dados visuais e textuais.
Estes modelos podem ser utilizados para realizar uma série de tarefas impressionantes, como gerar legendas detalhadas para fotografias, responder a perguntas sobre imagens e até criar novos conteúdos visuais com base em descrições textuais. Ao integrar perfeitamente a informação visual e linguística, os Modelos de Linguagem Visual estão a mudar a forma como interagimos com a tecnologia e compreendemos o mundo à nossa volta.
Antes de analisarmos onde podem ser utilizados os modelos de visão e linguagem (VLMs), vamos perceber o que são e como funcionam. Os VLMs são modelos avançados de IA que combinam as capacidades dos modelos de visão e de linguagem para lidar com imagens e texto. Estes modelos recebem imagens juntamente com as suas descrições de texto e aprendem a ligar os dois. A parte visual do modelo capta os pormenores das imagens, enquanto a parte linguística compreende o texto. Este trabalho de equipa permite que os VLMs compreendam e analisem tanto as imagens como o texto.
Eis as principais capacidades dos Modelos de Linguagem de Visão:
Em seguida, vamos explorar as arquitecturas comuns de MLV e as técnicas de aprendizagem utilizadas por modelos bem conhecidos como o CLIP, o SimVLM e o VisualGPT.
A aprendizagem contrastiva é uma técnica que ajuda os modelos a aprenderem através da comparação das diferenças entre pontos de dados. Calcula quão semelhantes ou diferentes são as instâncias e procura minimizar a perda contrastiva, que mede essas diferenças. É especialmente útil na aprendizagem semi-supervisionada, em que um pequeno conjunto de exemplos rotulados orienta o modelo para rotular dados novos e não vistos. Por exemplo, para compreender o aspeto de um gato, o modelo compara-o com imagens semelhantes de gatos e cães. Ao identificar características como a estrutura facial, o tamanho do corpo e o pelo, as técnicas de aprendizagem contrastiva podem distinguir entre um gato e um cão.
O CLIP é um modelo de visão-linguagem que utiliza a aprendizagem contrastiva para fazer corresponder as descrições de texto às imagens. Funciona em três passos simples. Primeiro, treina as partes do modelo que compreendem tanto texto como imagens. Em segundo lugar, converte as categorias de um conjunto de dados em descrições de texto. Em terceiro lugar, identifica a melhor descrição correspondente para uma determinada imagem. Graças a este método, o modelo CLIP pode fazer previsões precisas mesmo para tarefas para as quais não foi especificamente treinado.
PrefixLM é uma técnica de processamento de linguagem natural (NLP) utilizada para treinar modelos. Começa com parte de uma frase (um prefixo) e aprende a prever a palavra seguinte. Nos modelos de visão-linguagem, o PrefixLM ajuda o modelo a prever as palavras seguintes com base numa imagem e num determinado texto. Utiliza um transformador de visão (ViT), que divide uma imagem em pequenos fragmentos, cada um representando uma parte da imagem, e processa-os em sequência.
O SimVLM é um VLM que utiliza a técnica de aprendizagem PrefixLM. Utiliza uma arquitetura de transformador mais simples do que os modelos anteriores, mas obtém melhores resultados em vários testes. A arquitetura do modelo envolve a aprendizagem da associação de imagens com prefixos de texto utilizando um codificador de transformador e, em seguida, a geração de texto utilizando um descodificador de transformador.
A fusão multimodal com atenção cruzada é uma técnica que melhora a capacidade de um modelo de linguagem de visão pré-treinado para compreender e processar dados visuais. Funciona adicionando camadas de atenção cruzada ao modelo, o que lhe permite prestar atenção a informações visuais e textuais ao mesmo tempo.
Vê como funciona:
O VisualGPT é um bom exemplo de um modelo que utiliza esta técnica. Inclui uma caraterística especial chamada unidade de ativação auto-recuperável (SRAU), que ajuda o modelo a evitar um problema comum chamado gradientes de desaparecimento. Os gradientes de desaparecimento podem fazer com que os modelos percam informações importantes durante o treinamento, mas a SRAU mantém o desempenho do modelo forte.
Os modelos de visão da linguagem estão a ter impacto numa série de indústrias. Desde melhorar as plataformas de comércio eletrónico até tornar a Internet mais acessível, as potenciais utilizações dos VLMs são empolgantes. Vamos explorar algumas destas aplicações.
Quando faz compras online, vê descrições detalhadas de cada produto, mas a criação dessas descrições pode consumir muito tempo. Os VLMs simplificam este processo, automatizando a criação destas descrições. Os retalhistas online podem gerar diretamente descrições detalhadas e precisas a partir de imagens de produtos utilizando Modelos de Linguagem Visual.
As descrições de produtos de elevada qualidade ajudam os motores de busca a identificar produtos com base em atributos específicos mencionados na descrição. Por exemplo, uma descrição que contenha "manga comprida" e "gola de algodão" ajuda os clientes a encontrar mais facilmente uma "camisa de algodão de manga comprida". Também ajuda os clientes a encontrar rapidamente o que pretendem e, por sua vez, aumenta as vendas e a satisfação dos clientes.
Os modelos de IA generativa, como o BLIP-2, são exemplos de VLM sofisticados que podem prever atributos de produtos diretamente a partir de imagens. O BLIP-2 utiliza vários componentes para compreender e descrever com precisão os produtos de comércio eletrónico. Começa por processar e compreender os aspectos visuais do produto com um codificador de imagem. Depois, um transformador de consulta interpreta esta informação visual no contexto de perguntas ou tarefas específicas. Por fim, um modelo de linguagem de grande dimensão gera descrições detalhadas e precisas dos produtos.
Os modelos de linguagem visual podem tornar a Internet mais acessível através da legendagem de imagens, especialmente para pessoas com deficiência visual. Tradicionalmente, os utilizadores têm de introduzir descrições de conteúdos visuais em sítios Web e redes sociais. Por exemplo, quando publicas no Instagram, podes adicionar texto alternativo para leitores de ecrã. No entanto, os VLMs podem automatizar este processo.
Quando um VLM vê uma imagem de um gato sentado num sofá, pode gerar a legenda "Um gato sentado num sofá", tornando a cena clara para os utilizadores com deficiência visual. Os VLMs utilizam técnicas como a solicitação de poucos disparos, em que aprendem com alguns exemplos de pares imagem-legenda, e a solicitação de cadeia de pensamento, que os ajuda a decompor logicamente cenas complexas. Estas técnicas tornam as legendas geradas mais coerentes e pormenorizadas.
GooglePara este efeito, a funcionalidade"Obter descrições de imagens de Google" no Chrome gera automaticamente descrições para imagens sem texto alternativo. Embora estas descrições geradas por IA possam não ser tão detalhadas como as escritas por humanos, continuam a fornecer informações valiosas.
Os modelos de visão da linguagem (VLM) oferecem muitas vantagens ao combinarem dados visuais e textuais. Algumas das principais vantagens incluem:
Apesar das suas capacidades impressionantes, os modelos de visão da linguagem também têm algumas limitações. Eis alguns aspectos a ter em conta quando se trata de VLMs:
Os modelos de visão da linguagem têm um potencial incrível em muitos domínios, como o comércio eletrónico e os cuidados de saúde. Ao combinarem dados visuais e textuais, podem impulsionar a inovação e transformar as indústrias. No entanto, é essencial desenvolver estas tecnologias de forma responsável e ética para garantir que são utilizadas de forma justa. À medida que os VLMs continuarem a evoluir, melhorarão tarefas como a pesquisa baseada em imagens e as tecnologias de assistência.
Para continuar a aprender sobre IA, liga-te à nossa comunidade! Explora o nosso repositório GitHub para veres como estamos a utilizar a IA para criar soluções inovadoras em indústrias como o fabrico e os cuidados de saúde. 🚀
Começa a tua viagem com o futuro da aprendizagem automática