Glossário

Aprendizagem multimodal

Descubra o poder da aprendizagem multimodal em IA! Explore como os modelos integram diversos tipos de dados para uma resolução de problemas mais rica e realista.

A aprendizagem multimodal é um subcampo da aprendizagem automática (ML) em que os modelos de IA são treinados para processar e compreender informações de vários tipos de dados, conhecidos como modalidades. Tal como os humanos percepcionam o mundo combinando a visão, o som e a linguagem, a aprendizagem multimodal permite à IA desenvolver uma compreensão mais holística e contextual, integrando dados de fontes como imagens, texto, áudio e leituras de sensores. Esta abordagem vai além dos sistemas de foco único, permitindo interpretações mais ricas e aplicações mais sofisticadas que reflectem uma inteligência semelhante à humana. O objetivo final é criar modelos capazes de ver, ler e ouvir para obter informações abrangentes.

Como funciona a aprendizagem multimodal

Os sistemas de aprendizagem multimodal são concebidos para enfrentar três desafios principais: representação, alinhamento e fusão. Em primeiro lugar, o modelo tem de aprender uma representação significativa para cada modalidade, convertendo frequentemente diversos tipos de dados, como píxeis e palavras, em vectores numéricos denominados " embeddings". Em segundo lugar, tem de alinhar estas representações, ligando conceitos relacionados entre modalidades - por exemplo, ligando o texto "um cão a apanhar um disco voador" aos elementos visuais correspondentes numa imagem. Finalmente, funde estas representações alinhadas para fazer uma previsão unificada ou gerar novos conteúdos. Esta fusão pode ocorrer em diferentes fases, e o desenvolvimento de arquitecturas como o Transformer e o seu mecanismo de atenção tem sido fundamental para criar estratégias de fusão eficazes.

Aplicações no mundo real

A aprendizagem multimodal é o motor por detrás de muitas capacidades de IA de ponta. Eis alguns exemplos importantes:

  1. Resposta a perguntas visuais (VQA): Na VQA, é dado a um modelo de IA uma imagem e uma pergunta em linguagem natural sobre a mesma (por exemplo, "O que está a fazer a pessoa de camisa vermelha?"). O modelo deve processar simultaneamente a informação visual da imagem e o significado semântico do texto para dar uma resposta exacta. Esta tecnologia é utilizada para criar ferramentas de assistência para pessoas com deficiência visual e para análise avançada de conteúdos. Pode explorar um conjunto de dados VQA popular para ver mais exemplos.
  2. Geração de texto para imagem: Modelos generativos como o DALL-E 3 e o Stable Diffusion da OpenAI são excelentes exemplos de aprendizagem multimodal. Pegam numa descrição textual (uma mensagem) e geram uma nova imagem correspondente. Isto requer uma compreensão profunda da linguagem e a capacidade de traduzir conceitos abstractos em detalhes visuais coerentes, uma tarefa que combina PNL e visão generativa.

Principais distinções

É útil distinguir a aprendizagem multimodal de termos relacionados:

  • Modelos multimodais: A aprendizagem multimodal é o processo ou domínio de estudo relacionado com a formação da IA utilizando vários tipos de dados. Os modelos multimodais são os sistemas ou arquitecturas de IA resultantes, concebidos e treinados com recurso a estas técnicas.
  • Visão por computador (CV): A CV centra-se exclusivamente no processamento e compreensão de dados visuais. Enquanto um modelo de CV especializado como o Ultralytics YOLO11 se destaca em tarefas como a deteção de objectos, a aprendizagem multimodal vai mais longe, integrando esses dados visuais com outras modalidades.
  • Processamento de linguagem natural (PNL): A PNL trata da compreensão e da geração de linguagem humana. A aprendizagem multimodal integra dados linguísticos com outras modalidades, como imagens ou leituras de sensores, como se vê nos Modelos de Linguagem Visual.
  • Modelos de base: Estes são modelos de grande escala pré-treinados em grandes quantidades de dados. Muitos modelos de base modernos, como o GPT-4, são inerentemente multimodais, mas os conceitos são distintos. A aprendizagem multimodal é uma metodologia frequentemente utilizada para construir estes modelos poderosos, que são estudados por instituições como o CRFM de Stanford.

Desafios e direcções futuras

A aprendizagem multimodal apresenta desafios únicos, incluindo o alinhamento eficaz de dados de diferentes fontes, o desenvolvimento de estratégias de fusão óptimas e o tratamento de dados em falta ou com ruído. A resposta a estes desafios na aprendizagem multimodal continua a ser uma área de investigação ativa. O campo está a evoluir rapidamente, alargando as fronteiras para sistemas de IA que percebem e raciocinam sobre o mundo de forma mais semelhante à dos humanos, contribuindo potencialmente para o desenvolvimento da Inteligência Artificial Geral (AGI). Embora plataformas como o Ultralytics HUB facilitem atualmente fluxos de trabalho centrados principalmente em tarefas de visão computacional, o panorama mais vasto da IA aponta para uma integração crescente de capacidades multimodais. Fique atento ao blogue Ultralytics para obter actualizações sobre novas capacidades de modelos desenvolvidos com estruturas como PyTorch e TensorFlow.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência