Verificação verde
Link copiado para a área de transferência

Modelos multimodais e aprendizagem multimodal: Expandir as capacidades da IA

Explora a forma como os modelos multimodais integram texto, imagens, áudio e dados de sensores para melhorar a perceção, o raciocínio e a tomada de decisões da IA.

Os sistemas de IA tradicionais processam normalmente informações de uma única fonte de dados, como texto, imagens ou áudio. Embora estas abordagens unimodais sejam excelentes em tarefas especializadas, muitas vezes não conseguem lidar com cenários complexos do mundo real que envolvem várias entradas simultâneas. A aprendizagem multimodal resolve este problema integrando diversos fluxos de dados num quadro unificado, permitindo uma compreensão mais rica e mais consciente do contexto.

Inspirados na perceção humana, os modelos multimodais analisam, interpretam e actuam com base em entradas combinadas, tal como os humanos que integram naturalmente a visão, o som e a linguagem. Estes modelos permitem à IA lidar com cenários complexos com maior precisão, robustez e adaptabilidade.

Neste artigo, vamos explorar a evolução dos modelos multimodais, analisar o seu funcionamento, discutir as suas aplicações práticas na visão por computador e avaliar as vantagens e os desafios associados à integração de vários tipos de dados.

O que é a aprendizagem multimodal?

Deves estar a perguntar-te o que é exatamente a aprendizagem multimodal e porque é importante para a inteligência artificial (IA). Os modelos tradicionais de IA lidam normalmente com um tipo de dados de cada vez, quer se trate de imagens, texto, áudio ou entradas de sensores. 

A aprendizagem multimodal, no entanto, vai mais longe, permitindo que os sistemas analisem, interpretem e integrem simultaneamente vários fluxos de dados diferentes. Esta abordagem reflecte de perto a forma como o cérebro humano integra naturalmente as entradas visuais, auditivas e linguísticas para formar uma compreensão coesa do mundo.

Combinando estas diferentes modalidades, a IA multimodal consegue uma compreensão mais profunda e com mais nuances de cenários complexos. 

Por exemplo, ao analisar filmagens de vídeo, um sistema multimodal não processa apenas o conteúdo visual; considera também o diálogo falado, os sons ambiente e as legendas que o acompanham. 

Esta perspetiva integrada permite à IA captar o contexto e as subtilezas que seriam perdidas se cada tipo de dados fosse analisado de forma independente.

Figura 1. Os modelos de aprendizagem multimodal integram diversos tipos de dados.

Em termos práticos, a aprendizagem multimodal alarga as possibilidades da IA. Potencia aplicações como a legendagem de imagens, respondendo a perguntas com base no contexto visual, gerando imagens realistas a partir de descrições de texto e melhorando os sistemas interactivos, tornando-os mais intuitivos e contextualmente conscientes.

Mas como é que os modelos multimodais combinam estes diferentes tipos de dados para alcançar estes resultados? Vamos analisar passo a passo os principais mecanismos por detrás do seu sucesso.

Como funcionam os modelos de IA multimodais?

Os modelos de IA multimodal alcançam as suas poderosas capacidades através de processos especializados: extração de caraterísticas separadas para cada modalidade (processamento de cada tipo de dados - como imagens, texto ou áudio - por si só), métodos de fusão (combinação dos detalhes extraídos) e técnicas de alinhamento avançadas (garantia de que a informação combinada se encaixa de forma coerente).

Figura 2. Integração de dados multimodais e pipeline de fusão para tarefas de previsão.

Vamos analisar mais detalhadamente o funcionamento de cada um destes processos.

Extração de caraterísticas separada por modalidade

Os modelos de IA multimodal utilizam arquitecturas diferentes e especializadas para cada tipo de dados. Isto significa que as entradas visuais, textuais e de áudio ou de sensores são processadas por sistemas concebidos especificamente para elas. Deste modo, o modelo consegue captar os detalhes únicos de cada entrada antes de os reunir.

Seguem-se alguns exemplos de como diferentes arquitecturas especializadas são utilizadas para extrair caraterísticas de vários tipos de dados:

  • Dados visuais: As redes neurais convolucionais (CNN) ou os transformadores de visão interpretam informações visuais de imagens e vídeos, produzindo representações detalhadas de caraterísticas.
  • Dados textuais: Os modelos baseados em transformadores, tais como os da família GPT, convertem entradas textuais em embeddings semânticos significativos.
  • Dados de áudio e de sensores: Redes neurais especializadas processam formas de onda de áudio ou entradas de sensores espaciais, assegurando que cada modalidade é representada com precisão e que as suas caraterísticas distintas são preservadas.

Uma vez processada individualmente, cada modalidade gera caraterísticas de alto nível optimizadas para captar a informação única contida nesse tipo de dados específico.

Técnicas de fusão de caraterísticas

Após a extração das caraterísticas, os modelos multimodais fundem-nas numa representação unificada e coerente. Para o fazer de forma eficaz, são utilizadas várias estratégias de fusão:

  • Fusão precoce: Combina os vectores de caraterísticas extraídos imediatamente após o processamento de cada modalidade. Esta estratégia incentiva interações intermodais mais profundas no início do processo de análise.

  • Fusão tardia: Mantém a separação das modalidades até às fases finais de tomada de decisão, em que as previsões de cada modalidade são combinadas, normalmente através de métodos de conjunto, como o cálculo da média ou a votação.

  • Fusão híbrida: As arquitecturas modernas integram frequentemente caraterísticas várias vezes em vários níveis do modelo, utilizando mecanismos de co-atenção para realçar e alinhar dinamicamente interações intermodais importantes. Por exemplo, a fusão híbrida pode enfatizar o alinhamento de palavras faladas ou frases textuais específicas com as caraterísticas visuais correspondentes em tempo real.

Alinhamento intermodal e mecanismos de atenção

Por último, os sistemas multimodais utilizam técnicas avançadas de alinhamento e atenção para garantir que os dados de diferentes modalidades se correspondem eficazmente. 

Métodos como a aprendizagem contrastiva ajudam a alinhar as representações visuais e textuais num espaço semântico partilhado. Ao fazê-lo, os modelos multimodais podem estabelecer ligações fortes e significativas entre diversos tipos de dados, garantindo a consistência entre o que o modelo "vê" e "lê".

Os mecanismos de atenção baseados em transformadores melhoram ainda mais este alinhamento, permitindo que os modelos se concentrem dinamicamente nos aspectos mais relevantes de cada entrada. Por exemplo, as camadas de atenção permitem que o modelo ligue diretamente descrições textuais específicas às regiões correspondentes nos dados visuais, melhorando consideravelmente a precisão em tarefas complexas como a resposta a perguntas visuais (VQA) e a legendagem de imagens. 

Estas técnicas melhoram a capacidade da IA multimodal para compreender profundamente o contexto, permitindo que a IA forneça interpretações mais matizadas e precisas de dados complexos do mundo real.

A evolução da IA multimodal

A IA multimodal evoluiu significativamente, passando das primeiras técnicas baseadas em regras para sistemas avançados de aprendizagem profunda capazes de uma integração sofisticada.

Nos primeiros tempos, os sistemas multimodais combinavam diferentes tipos de dados, como imagens, áudio ou entradas de sensores, utilizando regras criadas manualmente por especialistas humanos ou métodos estatísticos simples. Por exemplo, a navegação robótica inicial combinava imagens de câmaras com dados de sonar para detetar e evitar obstáculos. Embora eficazes, estes sistemas exigiam uma extensa engenharia manual das caraterísticas e eram limitados na sua capacidade de adaptação e generalização.

Com o advento da aprendizagem profunda, os modelos multimodais tornaram-se muito mais populares. As redes neuronais, como os autoencoders multimodais, começaram a aprender representações conjuntas de diferentes tipos de dados, nomeadamente dados de imagem e de texto, permitindo à IA lidar com tarefas como a recuperação multimodal e a procura de imagens com base apenas em descrições textuais. 

Os avanços continuaram à medida que sistemas como o Visual Question Answering (VQA) integraram CNNs para processar imagens e RNNs ou transformadores para interpretar texto. Isto permitiu que os modelos de IA respondessem com precisão a perguntas complexas e dependentes do contexto sobre o conteúdo visual.

Mais recentemente, os modelos multimodais de grande escala treinados em conjuntos de dados maciços à escala da Internet revolucionaram ainda mais as capacidades da IA. 

Estes modelos tiram partido de técnicas como a aprendizagem contrastiva, permitindo-lhes identificar relações generalizáveis entre o conteúdo visual e as descrições textuais. Ao colmatar as lacunas entre as modalidades, as arquitecturas multimodais modernas melhoraram a capacidade da IA para realizar tarefas complexas de raciocínio visual com uma precisão quase humana, ilustrando até que ponto a IA multimodal progrediu desde as suas fases iniciais.

Explorar a aprendizagem multimodal na visão por computador

Agora que já explorámos a forma como os modelos multimodais integram diversos fluxos de dados, vamos analisar a forma como estas capacidades podem ser aplicadas aos modelos de visão por computador. 

Fig. 3. Fluxo de trabalho da aprendizagem multimodal aplicada à visão por computador.

Ao combinar a entrada visual com texto, áudio ou dados de sensores, a aprendizagem multimodal permite que os sistemas de IA lidem com aplicações cada vez mais sofisticadas e ricas em contexto. 

Legenda da imagem

A legendagem de imagens envolve a criação de descrições em linguagem natural para dados visuais. Os métodos tradicionais de deteção de objectos identificam objectos individuais, mas a legendagem multimodal vai mais longe, interpretando relações e contextos. 

Por exemplo, um modelo multimodal pode analisar uma imagem de pessoas num piquenique e gerar uma legenda descritiva como "Uma família a fazer um piquenique num parque solarengo", proporcionando um resultado mais rico e mais acessível.

Esta aplicação é importante para a acessibilidade. Pode ser utilizada para gerar texto alternativo para pessoas com deficiências visuais e etiquetagem de conteúdos para grandes bases de dados. As arquitecturas de transformação desempenham aqui um papel fundamental, permitindo que o módulo de geração de texto se concentre em áreas visuais relevantes através de mecanismos de atenção, alinhando dinamicamente as descrições textuais com as caraterísticas visuais.

Resposta visual a perguntas (VQA)

Os modelos VQA respondem a perguntas de linguagem natural com base no conteúdo visual, combinando a visão por computador com a compreensão da linguagem. Estas tarefas requerem uma compreensão detalhada do conteúdo da imagem, do contexto e do raciocínio semântico. 

As arquitecturas de transformação melhoraram o VQA, permitindo que o texto do modelo e os componentes visuais interajam dinamicamente, identificando regiões exactas da imagem relacionadas com a pergunta.

O modelo PaLI daGoogle, por exemplo, utiliza arquitecturas avançadas baseadas em transformadores que integram transformadores visuais (ViT) com codificadores e descodificadores de linguagem, permitindo responder com precisão a perguntas sofisticadas como "O que está a mulher na imagem a fazer?" ou "Quantos animais são visíveis?". 

As camadas de atenção, que ajudam os modelos a concentrarem-se nas partes mais relevantes de uma entrada, garantem que cada palavra da pergunta se liga dinamicamente a pistas visuais, permitindo respostas com nuances para além da deteção básica de objectos. 

Geração de texto para imagem

A geração de texto para imagem refere-se à capacidade da IA para criar conteúdos visuais diretamente a partir de descrições textuais, colmatando a lacuna entre a compreensão semântica e a criação visual. 

Os modelos multimodais que realizam esta tarefa utilizam arquitecturas neurais avançadas, como transformadores ou processos de difusão, para gerar imagens detalhadas e contextualmente precisas.

Por exemplo, imagina a geração de dados de treino sintéticos para modelos de visão por computador encarregados da deteção de veículos. Dadas descrições textuais como "um sedan vermelho estacionado numa rua movimentada" ou "um SUV branco a conduzir numa autoestrada", estes modelos multimodais podem produzir imagens diversas e de alta qualidade que representam estes cenários precisos. 

Esta capacidade permite aos investigadores e programadores expandir eficazmente os conjuntos de dados de deteção de objectos sem capturar manualmente milhares de imagens, reduzindo significativamente o tempo e os recursos necessários para a recolha de dados.

Fig. 4. Exemplos de resultados de um modelo de deteção de objectos treinado em conjuntos de dados sintéticos.

Os métodos mais recentes aplicam técnicas baseadas na difusão, partindo de ruído visual aleatório e refinando progressivamente a imagem para a alinhar com a entrada textual. Este processo iterativo pode criar exemplos realistas e variados, garantindo dados de treino robustos que abrangem vários pontos de vista, condições de iluminação, tipos de veículos e fundos.

Esta abordagem é particularmente valiosa na visão computacional, permitindo uma rápida expansão do conjunto de dados, melhorando a precisão do modelo e aumentando a diversidade de cenários que os sistemas de IA podem reconhecer de forma fiável. 

Recuperação de imagem-texto

Os sistemas de recuperação multimodal facilitam a pesquisa convertendo texto e imagens numa linguagem comum de significado. Por exemplo, os modelos treinados em grandes conjuntos de dados - como o CLIP, que aprendeu com milhões de pares imagem-texto - podem fazer corresponder as consultas de texto às imagens corretas, resultando em resultados de pesquisa mais intuitivos e precisos.

Por exemplo, uma consulta de pesquisa como "pôr do sol numa praia" apresenta resultados visualmente precisos, melhorando significativamente a eficiência da descoberta de conteúdos em plataformas de comércio eletrónico, arquivos multimédia e bases de dados de fotografias de arquivo. 

A abordagem multimodal garante a precisão da recuperação mesmo quando as consultas e as descrições das imagens utilizam linguagens diferentes, graças aos alinhamentos semânticos aprendidos entre os domínios visuais e textuais.

Prós e contras dos modelos multimodais na IA

A aprendizagem multimodal oferece várias vantagens fundamentais que melhoram as capacidades da IA na visão computacional e não só:

  • Compreensão contextual mais rica: Combinando vários fluxos de entrada, os modelos multimodais alcançam uma compreensão mais profunda e matizada de cenários complexos do mundo real.

  • Maior precisão: A referência cruzada de várias fontes de dados reduz os erros de reconhecimento e de raciocínio, melhorando a fiabilidade geral.

  • Maior robustez: Os sistemas multimodais continuam a ser eficazes mesmo que uma das fontes de dados esteja comprometida (por exemplo, más condições de iluminação nas entradas visuais ou ruído nos dados áudio).

Apesar destes pontos fortes, os modelos multimodais também apresentam o seu próprio conjunto de desafios:

  • Complexidade computacional: O tratamento simultâneo de múltiplas modalidades requer recursos computacionais significativos, o que leva a um aumento das exigências em termos de infra-estruturas.

  • Alinhamento e sincronização de dados: O alinhamento exato de diferentes modalidades - como a correspondência precisa entre as pistas de áudio e as imagens visuais - é tecnicamente difícil, mas essencial para um desempenho ótimo.

  • Implicações éticas: Os sistemas multimodais podem amplificar inadvertidamente os enviesamentos presentes nos conjuntos de dados de treino, o que realça a importância de uma curadoria cuidadosa dos dados e de uma avaliação ética contínua.

Principais conclusões

A aprendizagem multimodal está a remodelar a IA, permitindo uma compreensão mais rica e contextual de múltiplos fluxos de dados. As aplicações em visão computacional, como a legendagem de imagens, a resposta a perguntas visuais, a geração de texto para imagem e a recuperação melhorada de imagens, demonstram o potencial da integração de diversas modalidades.

Embora continuem a existir desafios computacionais e éticos, as inovações em curso nas arquitecturas, como a fusão baseada em transformadores e o alinhamento contrastivo, continuam a dar resposta a estas preocupações, levando a IA multimodal a uma inteligência cada vez mais semelhante à humana.

À medida que este campo evolui, os modelos multimodais tornar-se-ão essenciais para tarefas de IA complexas e reais, melhorando tudo, desde o diagnóstico de cuidados de saúde à robótica autónoma. A adoção da aprendizagem multimodal coloca as indústrias em posição de aproveitar capacidades poderosas que irão moldar o futuro da IA.

Junta-te à nossa comunidade em crescimento! Explora o nosso repositório GitHub para saberes mais sobre IA. Estás pronto para iniciar os teus próprios projectos de visão computacional? Vê as nossas opções de licenciamento. Descobre a IA no fabrico e a IA de visão na condução autónoma visitando as nossas páginas de soluções!

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática