Glossário

Aprendizagem Zero-Shot

Descobre a Aprendizagem Zero-Shot: uma abordagem de IA de ponta que permite que os modelos classifiquem dados não vistos, revolucionando a deteção de objectos, a PNL e muito mais.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Aprendizagem Zero-Shot (ZSL) é uma área fascinante da Aprendizagem Automática (AM) em que um modelo é treinado para reconhecer objectos ou conceitos que nunca viu explicitamente durante o treino. Ao contrário dos métodos tradicionais de aprendizagem supervisionada, que requerem numerosos exemplos rotulados para cada categoria possível, a ZSL permite que os modelos façam previsões sobre classes não vistas, tirando partido de informações auxiliares que descrevem estas novas classes. Esta capacidade é crucial para a construção de sistemas de Inteligência Artificial (IA) mais adaptáveis e escaláveis, especialmente em domínios onde a obtenção de dados rotulados para todas as categorias concebíveis é impraticável ou impossível.

Como funciona a aprendizagem Zero-Shot

A ideia central da ZSL é colmatar a lacuna entre classes vistas e não vistas utilizando um espaço semântico partilhado. Este espaço baseia-se muitas vezes em descrições de alto nível, atributos ou embeddings derivados de texto ou bases de conhecimento. Durante o treino, o modelo aprende um mapeamento entre os dados de entrada (como imagens ou texto) e este espaço semântico, utilizando apenas exemplos das classes "vistas". Por exemplo, um modelo pode aprender a associar imagens de cavalos e tigres (classes vistas) aos seus atributos correspondentes (por exemplo, "tem cascos", "tem riscas", "é um mamífero").

Quando lhe é apresentada uma instância de uma classe não vista (por exemplo, uma zebra), o modelo extrai as suas caraterísticas e mapeia-as no espaço semântico aprendido. Depois compara este mapeamento com as descrições semânticas de classes não vistas (por exemplo, os atributos "tem riscas", "tem cascos", "é um mamífero" que descrevem uma zebra). A classe cuja descrição semântica está mais próxima neste espaço é escolhida como a previsão. Este processo envolve frequentemente técnicas de aprendizagem profunda (DL), utilizando arquitecturas como as Redes Neuronais Convolucionais (CNN) para a extração de caraterísticas e funções de mapeamento para relacionar caraterísticas visuais com atributos semânticos, por vezes aproveitando conceitos de Transformadores de Visão (ViT) ou modelos como o CLIP.

Principais diferenças em relação a conceitos semelhantes

É importante distinguir a ZSL dos paradigmas de aprendizagem relacionados:

Aplicações no mundo real

A ZSL tem um potencial significativo em vários domínios:

  1. Visão por Computador (CV) - Reconhecimento de objectos com precisão: Identifica espécies raras de animais, plantas ou modelos de produtos específicos em imagens em que os dados de treino são escassos. Por exemplo, um sistema treinado em aves comuns poderia identificar uma espécie rara com base numa descrição textual da sua plumagem, forma do bico e habitat, mesmo sem exemplos visuais prévios. Isto alarga as capacidades para além da deteção de objectos padrão ou da classificação de imagens treinada apenas em classes vistas. Modelos como o YOLO baseiam-se em ideias semelhantes para a deteção de vocabulário aberto.
  2. Processamento de linguagem natural (NLP) - Identificação de tópicos e reconhecimento de intenções: Classifica documentos, e-mails ou consultas de utilizadores em tópicos ou intenções novos e emergentes não presentes no conjunto de dados de formação inicial. Por exemplo, um chatbot de apoio ao cliente pode categorizar uma consulta sobre uma caraterística de um produto recém-lançado utilizando a descrição da caraterística, sem necessitar de exemplos de formação explícita de tais consultas. Aproveita o poder dos modelos de linguagem de grande dimensão (LLM) como o GPT-4.

Desafios e direcções futuras

Apesar de promissora, a ZSL enfrenta desafios como o problema do hubness (em que alguns pontos no espaço semântico se tornam vizinhos mais próximos de muitos pontos) e a mudança de domínio (em que a relação entre caraterísticas e atributos difere entre classes vistas e não vistas). A investigação continua a explorar incorporações semânticas mais robustas, melhores funções de mapeamento e técnicas como a Aprendizagem Generalizada Zero-Shot (GZSL), que visa reconhecer classes vistas e não vistas durante a inferência. O desenvolvimento de plataformas como o Ultralytics HUB poderia facilitar a integração e a implementação de capacidades ZSL em aplicações práticas de IA de visão. Outros avanços podem inspirar-se em modelos multimodais que ligam inerentemente a visão e a linguagem.

Lê tudo