Glossário

Modelo multimodal

Descobre como os modelos de IA multimodal integram texto, imagens e muito mais para criar sistemas robustos e versáteis para aplicações do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O modelo multimodal em IA e aprendizagem automática refere-se a um tipo de modelo concebido para processar e compreender informações de vários tipos de dados de entrada, ou modalidades. Em vez de dependerem apenas de um tipo de dados, como imagens ou texto, os modelos multimodais podem tratar e integrar várias formas de dados para obter uma compreensão mais abrangente da informação. Esta abordagem conduz frequentemente a sistemas de IA mais robustos e versáteis.

Definição

Um modelo multimodal é um modelo de IA que é treinado para processar e relacionar informações de duas ou mais modalidades de dados distintas. Estas modalidades podem incluir texto, imagens, áudio, vídeo, dados de sensores, entre outros. Ao aprender com as relações e dependências entre estes diferentes tipos de dados, os modelos multimodais podem alcançar uma compreensão mais rica e matizada de dados complexos do que os modelos limitados a uma única modalidade. Esta integração permite que o modelo aproveite os pontos fortes de cada modalidade, ultrapassando as limitações inerentes às abordagens de modalidade única.

Relevância e aplicações

A relevância dos modelos multimodais está a crescer rapidamente, uma vez que os dados do mundo real são inerentemente multifacetados. São cruciais em aplicações em que a compreensão do contexto de diferentes fontes é fundamental. Eis alguns exemplos:

  • Modelos de visão linguística (VLMs): Modelos como o Florence-2 e o PaliGemma 2 combinam visão computacional e processamento de linguagem natural. Podem compreender imagens e responder a perguntas sobre elas em linguagem natural, gerar legendas de imagens ou realizar tarefas como a resposta a perguntas visuais. Esta tecnologia é essencial para aplicações que vão desde a análise de imagens médicas até à melhoria da automatização de processos robóticos (RPA), permitindo que os robôs "vejam" e "compreendam" o seu ambiente através de entradas visuais e textuais.
  • Condução autónoma: Os carros autónomos dependem fortemente de modelos multimodais. Integram dados de câmaras (imagens e vídeos), LiDAR (informação de profundidade), radar (distância e velocidade) e GPS (dados de localização). Esta fusão de dados de sensores permite uma perceção mais precisa e fiável do ambiente, crucial para uma navegação segura e para a tomada de decisões em aplicações de IA de visão, como os automóveis autónomos.
  • Análise de sentimentos: Embora a análise de sentimentos seja frequentemente efectuada em dados de texto, a incorporação de pistas sonoras e visuais pode aumentar a precisão, especialmente na compreensão das emoções humanas. Por exemplo, a análise de expressões faciais em vídeo juntamente com comentários textuais pode fornecer uma compreensão mais abrangente do sentimento do cliente em relação a um produto ou serviço.

Conceitos-chave

A compreensão dos modelos multimodais implica a compreensão de alguns conceitos relacionados:

  • Fusão de dados: É o processo de combinação de dados de vários sensores ou fontes. Nos modelos multimodais, as técnicas de fusão de dados são utilizadas para integrar informações de diferentes modalidades numa representação unificada com a qual o modelo pode aprender.
  • Aprendizagem multimodal: Refere-se à capacidade de um modelo para transferir conhecimentos adquiridos numa modalidade para outra. Por exemplo, um modelo treinado em pares de imagem e texto pode ser capaz de gerar descrições para novas imagens que nunca viu antes, demonstrando uma compreensão intermodal.
  • Modelos de base: Os modelos de base, como o GPT-4 da OpenAI, são cada vez mais multimodais. Estes modelos poderosos são treinados em grandes quantidades de dados diversos e podem ser adaptados a uma vasta gama de tarefas em diferentes modalidades, demonstrando o potencial da IA multimodal para alcançar uma inteligência artificial geral (AGI) mais geral e capaz.

Ao tirar partido da riqueza dos dados multimodais, os sistemas de IA estão a tornar-se mais inteligentes, versáteis e mais bem equipados para resolver problemas complexos do mundo real.

Lê tudo