Descobre a Aprendizagem Zero-Shot: uma abordagem de IA de ponta que permite que os modelos classifiquem dados não vistos, revolucionando a deteção de objectos, a PNL e muito mais.
A Aprendizagem Zero-Shot (ZSL) é uma área fascinante da Aprendizagem Automática (AM) em que um modelo é treinado para reconhecer objectos ou conceitos que nunca viu explicitamente durante o treino. Ao contrário dos métodos tradicionais de aprendizagem supervisionada, que requerem numerosos exemplos rotulados para cada categoria possível, a ZSL permite que os modelos façam previsões sobre classes não vistas, tirando partido de informações auxiliares que descrevem estas novas classes. Esta capacidade é crucial para a construção de sistemas de Inteligência Artificial (IA) mais adaptáveis e escaláveis, especialmente em domínios onde a obtenção de dados rotulados para todas as categorias concebíveis é impraticável ou impossível.
A ideia central da ZSL é colmatar a lacuna entre classes vistas e não vistas utilizando um espaço semântico partilhado. Este espaço baseia-se muitas vezes em descrições de alto nível, atributos ou embeddings derivados de texto ou bases de conhecimento. Durante o treino, o modelo aprende um mapeamento entre os dados de entrada (como imagens ou texto) e este espaço semântico, utilizando apenas exemplos das classes "vistas". Por exemplo, um modelo pode aprender a associar imagens de cavalos e tigres (classes vistas) aos seus atributos correspondentes (por exemplo, "tem cascos", "tem riscas", "é um mamífero").
Quando lhe é apresentada uma instância de uma classe não vista (por exemplo, uma zebra), o modelo extrai as suas caraterísticas e mapeia-as no espaço semântico aprendido. Depois compara este mapeamento com as descrições semânticas de classes não vistas (por exemplo, os atributos "tem riscas", "tem cascos", "é um mamífero" que descrevem uma zebra). A classe cuja descrição semântica está mais próxima neste espaço é escolhida como a previsão. Este processo envolve frequentemente técnicas de aprendizagem profunda (DL), utilizando arquitecturas como as Redes Neuronais Convolucionais (CNN) para a extração de caraterísticas e funções de mapeamento para relacionar caraterísticas visuais com atributos semânticos, por vezes aproveitando conceitos de Transformadores de Visão (ViT) ou modelos como o CLIP.
É importante distinguir a ZSL dos paradigmas de aprendizagem relacionados:
A ZSL tem um potencial significativo em vários domínios:
Apesar de promissora, a ZSL enfrenta desafios como o problema do hubness (em que alguns pontos no espaço semântico se tornam vizinhos mais próximos de muitos pontos) e a mudança de domínio (em que a relação entre caraterísticas e atributos difere entre classes vistas e não vistas). A investigação continua a explorar incorporações semânticas mais robustas, melhores funções de mapeamento e técnicas como a Aprendizagem Generalizada Zero-Shot (GZSL), que visa reconhecer classes vistas e não vistas durante a inferência. O desenvolvimento de plataformas como o Ultralytics HUB poderia facilitar a integração e a implementação de capacidades ZSL em aplicações práticas de IA de visão. Outros avanços podem inspirar-se em modelos multimodais que ligam inerentemente a visão e a linguagem.