Descubra a Aprendizagem Zero-Shot: uma abordagem de IA de ponta que permite que os modelos classifiquem dados não vistos, revolucionando a deteção de objectos, a PNL e muito mais.
A Aprendizagem Zero-Shot (ZSL) é uma capacidade fascinante na aprendizagem automática (ML) em que um modelo pode reconhecer e classificar objectos de categorias que nunca viu durante a fase de dados de treino. Ao contrário da aprendizagem supervisionada tradicional, que requer exemplos explícitos para cada classe possível, a ZSL permite que um modelo generalize o seu conhecimento para classes novas e não vistas. Isto é conseguido através da associação de classes observadas e não observadas através de descrições semânticas de alto nível, tais como atributos ou incorporação de texto. Isto permite que um modelo de IA seja mais flexível e escalável, especialmente em cenários do mundo real em que a recolha exaustiva de dados rotulados é impraticável.
A ideia central do ZSL é criar um espaço de incorporação partilhado onde possam ser representadas tanto as caraterísticas visuais das imagens como a informação semântica do texto. Durante o treino, o modelo aprende a mapear imagens de classes vistas para os seus vectores semânticos correspondentes (atributos ou word embeddings). Por exemplo, o modelo aprende as caraterísticas visuais de um "cavalo" e associa-as a uma descrição semântica como "tem quatro patas", "é um mamífero" e "pode ser montado".
Quando lhe é apresentada uma imagem de uma classe não vista, como uma "zebra", o modelo extrai as suas caraterísticas visuais. Simultaneamente, utiliza a descrição semântica de uma "zebra" - por exemplo, "é parecida com um cavalo", "tem riscas" - para a localizar no espaço de incorporação. Ao encontrar a descrição semântica mais próxima das caraterísticas visuais extraídas, o modelo pode classificar corretamente a imagem como uma "zebra", mesmo sem uma única imagem de treino de uma. Este processo baseia-se frequentemente em poderosos modelos multimodais pré-treinados, como o CLIP da OpenAI, que é excelente na ligação entre visão e linguagem.
É importante distinguir a ZSL das técnicas de aprendizagem relacionadas:
A ZSL tem inúmeras aplicações práticas, tornando os sistemas de visão por computador mais dinâmicos e adaptáveis.
Apesar do seu potencial, a ZSL enfrenta desafios como o problema do hubness (em que alguns pontos no espaço semântico se tornam vizinhos mais próximos de demasiados pontos) e a mudança de domínio (em que as relações entre caraterísticas e atributos diferem entre classes vistas e não vistas). Para resolver estes problemas, os investigadores estão a desenvolver técnicas mais robustas, como a Aprendizagem Generalizada Zero-Shot (GZSL), em que o modelo tem de reconhecer classes vistas e não vistas durante a inferência. A evolução dos modelos de fundação e de plataformas como o Ultralytics HUB simplificará ainda mais a integração e a implantação do ZSL, tornando os sistemas de IA menos dependentes da rotulagem extensiva de dados e mais alinhados com o raciocínio humano.