Glossário

Aprendizagem Zero-Shot

Descubra a Aprendizagem Zero-Shot: uma abordagem de IA de ponta que permite que os modelos classifiquem dados não vistos, revolucionando a deteção de objectos, a PNL e muito mais.

A Aprendizagem Zero-Shot (ZSL) é uma capacidade fascinante na aprendizagem automática (ML) em que um modelo pode reconhecer e classificar objectos de categorias que nunca viu durante a fase de dados de treino. Ao contrário da aprendizagem supervisionada tradicional, que requer exemplos explícitos para cada classe possível, a ZSL permite que um modelo generalize o seu conhecimento para classes novas e não vistas. Isto é conseguido através da associação de classes observadas e não observadas através de descrições semânticas de alto nível, tais como atributos ou incorporação de texto. Isto permite que um modelo de IA seja mais flexível e escalável, especialmente em cenários do mundo real em que a recolha exaustiva de dados rotulados é impraticável.

Como é que funciona?

A ideia central do ZSL é criar um espaço de incorporação partilhado onde possam ser representadas tanto as caraterísticas visuais das imagens como a informação semântica do texto. Durante o treino, o modelo aprende a mapear imagens de classes vistas para os seus vectores semânticos correspondentes (atributos ou word embeddings). Por exemplo, o modelo aprende as caraterísticas visuais de um "cavalo" e associa-as a uma descrição semântica como "tem quatro patas", "é um mamífero" e "pode ser montado".

Quando lhe é apresentada uma imagem de uma classe não vista, como uma "zebra", o modelo extrai as suas caraterísticas visuais. Simultaneamente, utiliza a descrição semântica de uma "zebra" - por exemplo, "é parecida com um cavalo", "tem riscas" - para a localizar no espaço de incorporação. Ao encontrar a descrição semântica mais próxima das caraterísticas visuais extraídas, o modelo pode classificar corretamente a imagem como uma "zebra", mesmo sem uma única imagem de treino de uma. Este processo baseia-se frequentemente em poderosos modelos multimodais pré-treinados, como o CLIP da OpenAI, que é excelente na ligação entre visão e linguagem.

Aprendizagem Zero-Shot Vs. Outros paradigmas

É importante distinguir a ZSL das técnicas de aprendizagem relacionadas:

  • Aprendizagem de poucas oportunidades (FSL): Na FSL, o modelo é treinado com um número muito pequeno de exemplos rotulados (por exemplo, 1 a 5) para cada nova classe. Isto é diferente da ZSL, que funciona com zero exemplos da classe alvo.
  • Aprendizagem de uma só vez (OSL): Um subtipo de FSL em que o modelo recebe exatamente um exemplo de uma nova classe. É mais limitado em termos de dados do que a FSL geral, mas continua a exigir pelo menos uma amostra, ao contrário da ZSL.
  • Aprendizagem por transferência: A ZSL é uma forma de aprendizagem por transferência, mas é única. Enquanto a aprendizagem por transferência padrão envolve normalmente o ajuste fino de um modelo pré-treinado num novo conjunto de dados rotulado (mais pequeno), a ZSL transfere conhecimentos para novas classes utilizando apenas informação semântica auxiliar, ignorando a necessidade de quaisquer exemplos rotulados dessas classes.

Aplicações no mundo real

A ZSL tem inúmeras aplicações práticas, tornando os sistemas de visão por computador mais dinâmicos e adaptáveis.

  1. Deteção de objectos de vocabulário aberto: Modelos como o YOLO-World utilizam a ZSL para detetar qualquer objeto descrito por texto. Um utilizador pode fornecer instruções de texto como "pessoa com uma camisa azul" ou "tubo com fuga" e o modelo pode localizar esses objectos numa imagem ou fluxo de vídeo sem ser explicitamente treinado nessas categorias específicas. Trata-se de um passo significativo no sentido da criação de sistemas de visão verdadeiramente de objetivo geral.
  2. Identificação autónoma de espécies: Na IA para a conservação da vida selvagem, a ZSL pode identificar espécies raras ou recentemente descobertas. Um modelo treinado em animais comuns pode utilizar atributos descritivos (por exemplo, "tem um pescoço comprido", "é malhado", "é herbívoro") de uma base de conhecimentos como a Wikipédia para identificar uma girafa, mesmo que não existam imagens de girafas no seu conjunto de treino original.

Desafios e direcções futuras

Apesar do seu potencial, a ZSL enfrenta desafios como o problema do hubness (em que alguns pontos no espaço semântico se tornam vizinhos mais próximos de demasiados pontos) e a mudança de domínio (em que as relações entre caraterísticas e atributos diferem entre classes vistas e não vistas). Para resolver estes problemas, os investigadores estão a desenvolver técnicas mais robustas, como a Aprendizagem Generalizada Zero-Shot (GZSL), em que o modelo tem de reconhecer classes vistas e não vistas durante a inferência. A evolução dos modelos de fundação e de plataformas como o Ultralytics HUB simplificará ainda mais a integração e a implantação do ZSL, tornando os sistemas de IA menos dependentes da rotulagem extensiva de dados e mais alinhados com o raciocínio humano.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência