Aprendizagem Contrastiva

Descubra o poder da aprendizagem contrastiva, uma técnica auto-supervisionada para representações de dados robustas com um mínimo de dados rotulados.

A aprendizagem contrastiva é uma técnica de aprendizagem automática que treina um modelo para distinguir entre coisas semelhantes e diferentes. Em vez de aprender a prever uma etiqueta a partir de um único ponto de dados, o modelo aprende através da comparação de pares de exemplos. A ideia central é ensinar o modelo a aproximar as representações de pares semelhantes (positivos) num espaço de caraterísticas, enquanto afasta as representações de pares dissemelhantes (negativos). Esta abordagem é altamente eficaz para aprender representações significativas a partir de grandes conjuntos de dados não rotulados, o que a torna um método poderoso dentro da categoria mais alargada de aprendizagem auto-supervisionada.

Como é que funciona?

O processo de aprendizagem contrastiva gira em torno da criação de amostras positivas e negativas. Para um determinado ponto de dados, designado por "âncora", o modelo é treinado da seguinte forma:

Pares positivos: Um par positivo consiste na âncora e num ponto de dados que é semanticamente semelhante a ela. Na visão por computador (CV), uma amostra positiva é muitas vezes criada através da aplicação de um forte aumento de dados (como o corte aleatório, a rotação ou a variação de cor) à imagem âncora. Tanto a âncora como a versão aumentada são consideradas um par positivo porque têm origem na mesma imagem de origem.
Pares negativos: Um par negativo consiste na âncora e num ponto de dados que é dissemelhante. Numa configuração típica, todas as outras imagens de um lote de treino são tratadas como amostras negativas.
Objetivo de formação: O modelo, muitas vezes uma rede neural convolucional (CNN), processa estes pares e é optimizado utilizando uma função de perda contrastiva, como a InfoNCE ou a Perda de Tripletos. Esta função de perda penaliza o modelo quando os pares negativos estão demasiado próximos ou os pares positivos estão demasiado afastados no espaço de incorporação. Trabalhos de investigação de referência como o SimCLR e o MoCo fizeram avançar significativamente estas técnicas.

Aplicações no mundo real

A aprendizagem contrastiva é excelente em modelos de pré-treino para aprender representações de caraterísticas poderosas que podem depois ser ajustadas para tarefas específicas.

Pesquisa visual e recuperação de imagens: No comércio eletrónico, um utilizador pode querer encontrar produtos visualmente semelhantes a uma imagem que carregou. Um modelo pré-treinado com aprendizagem contrastiva pode mapear imagens para um espaço vetorial onde itens semelhantes são agrupados. Isto permite uma pesquisa semântica eficiente e sistemas de recomendação, que são cruciais para melhorar a experiência do cliente em IA no retalho.
Pré-treino para tarefas a jusante: Modelos como o Ultralytics YOLO11 podem beneficiar de pré-treino em grandes conjuntos de dados não rotulados, utilizando métodos contrastivos. Isto ajuda o modelo a aprender caraterísticas visuais robustas antes de ser afinado num conjunto de dados mais pequeno e rotulado para tarefas como a deteção de objectos ou a segmentação de instâncias. Esta abordagem conduz frequentemente a um melhor desempenho e a uma convergência mais rápida, especialmente quando os dados etiquetados são escassos, um conceito conhecido como aprendizagem de poucos disparos.