Glossário

Aprendizagem multimodal

Descobre o poder da aprendizagem multimodal em IA! Explora como os modelos integram diversos tipos de dados para uma resolução de problemas mais rica e realista.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Aprendizagem Multimodal é um subcampo da Inteligência Artificial (IA) e da Aprendizagem Automática (AM) centrado na conceção e formação de modelos que podem processar e integrar informações de vários tipos de dados distintos, conhecidos como modalidades. As modalidades mais comuns incluem texto, imagens(Visão por Computador (CV)), áudio(Reconhecimento de Fala), vídeo e dados de sensores (como LiDAR ou leituras de temperatura). O principal objetivo da aprendizagem multimodal é criar sistemas de IA capazes de uma compreensão mais holística e humana de cenários complexos, tirando partido das informações complementares presentes em diferentes fontes de dados.

Definição e conceitos fundamentais

A aprendizagem multimodal envolve a formação de algoritmos para compreender as relações e correlações entre diferentes tipos de dados. Em vez de analisar cada modalidade isoladamente, o processo de aprendizagem centra-se em técnicas para combinar ou fundir informações de forma eficaz. Os conceitos-chave incluem:

  • Fusão de informações: Refere-se aos métodos utilizados para combinar informações de diferentes modalidades. A fusão pode ocorrer em várias fases: precoce (combinação de dados em bruto), intermédia (combinação de caraterísticas extraídas de cada modalidade) ou tardia (combinação dos resultados de modelos separados treinados em cada modalidade). A fusão eficaz de informações é crucial para tirar partido dos pontos fortes de cada tipo de dados.
  • Aprendizagem multimodal: Trata-se de aprender representações em que a informação de uma modalidade pode ser utilizada para inferir ou recuperar informação de outra (por exemplo, gerar legendas de texto a partir de imagens).
  • Alinhamento de dados: Assegura que as partes correspondentes de informação em diferentes modalidades são corretamente combinadas (por exemplo, alinhar palavras faladas numa faixa de áudio com os quadros visuais correspondentes num vídeo). O alinhamento correto dos dados é muitas vezes um pré-requisito para uma fusão eficaz.

A Aprendizagem Multimodal baseia-se fortemente em técnicas de Aprendizagem Profunda (AP), utilizando arquitecturas como Transformadores e Redes Neuronais Convolucionais (CNN) adaptadas para lidar com diversas entradas, utilizando frequentemente estruturas como PyTorchPyTorch site oficialPyTorch ) ou TensorFlowTensorFlow ).

Relevância e aplicações

A relevância da aprendizagem multimodal resulta da sua capacidade para criar sistemas de IA mais robustos e versáteis, capazes de resolver problemas complexos do mundo real, em que a informação é inerentemente multifacetada. Atualmente, muitos modelos avançados de IA, incluindo os grandes Foundation Models, utilizam capacidades multimodais.

Eis alguns exemplos concretos de como a aprendizagem multimodal é aplicada:

Outras aplicações importantes incluem a condução autónoma(IA em carros autónomos), em que os dados de câmaras, LiDAR e radar são combinados por empresas como a Waymo, a análise de imagens médicas que combina dados de imagiologia com registos de pacientes e aplicações de IA na robótica, em que os robôs integram informações visuais, auditivas e tácteis para interagir com o seu ambiente(Robotics).

Principais distinções

É útil distinguir a aprendizagem multimodal de termos relacionados:

  • Modelos multimodais: A aprendizagem multimodal é o processo ou campo de estudo relacionado com o treino da IA utilizando vários tipos de dados. Os modelos multimodais são os sistemas ou arquitecturas de IA resultantes, concebidos e treinados utilizando estas técnicas.
  • Visão por computador (CV): A CV centra-se exclusivamente no processamento e compreensão de dados visuais (imagens, vídeos). A aprendizagem multimodal vai além da CV, integrando dados visuais com outras modalidades, como texto ou áudio.
  • Processamento de linguagem natural (PNL): A PNL trata da compreensão e geração de linguagem humana (texto, discurso). A aprendizagem multimodal integra dados linguísticos com outras modalidades, como imagens ou leituras de sensores.
  • Modelos de base: Estes são modelos de grande escala pré-treinados em grandes quantidades de dados, muitas vezes concebidos para serem adaptáveis a várias tarefas a jusante. Muitos modelos de base modernos, como o GPT-4, incorporam capacidades multimodais, mas os conceitos são distintos; a aprendizagem multimodal é uma metodologia frequentemente utilizada na construção destes modelos poderosos.

Desafios e direcções futuras

A aprendizagem multimodal apresenta desafios únicos, incluindo o alinhamento eficaz de dados de diferentes fontes, o desenvolvimento de estratégias de fusão óptimas e o tratamento de dados em falta ou com ruído numa ou mais modalidades. A resposta a estes desafios na aprendizagem multimodal continua a ser uma área de investigação ativa.

O campo está a evoluir rapidamente, alargando as fronteiras para sistemas de IA que percebem e raciocinam sobre o mundo de forma mais semelhante à dos humanos, contribuindo potencialmente para o desenvolvimento da Inteligência Artificial Geral (AGI). Embora plataformas como o Ultralytics HUB facilitem atualmente fluxos de trabalho centrados principalmente em tarefas de visão computacional, utilizando modelos como Ultralytics YOLO (por exemplo, Ultralytics YOLOv8) para a deteção de objectos, o panorama mais vasto da IA aponta para uma integração crescente das capacidades multimodais. Fica atento ao BlogueUltralytics para obteres actualizações sobre novas capacidades e aplicações de modelos. Para uma visão mais alargada do campo, a página da Wikipédia sobre Aprendizagem Multimodal oferece mais leituras.

Lê tudo