Apprendimento contrastivo

Scoprite la potenza dell'apprendimento contrastivo, una tecnica auto-supervisionata per ottenere rappresentazioni robuste dei dati con dati etichettati minimi.

L'apprendimento contrastivo è una tecnica di apprendimento automatico che addestra un modello a distinguere tra cose simili e dissimili. Invece di imparare a prevedere un'etichetta da un singolo punto di dati, il modello impara confrontando coppie di esempi. L'idea di base è insegnare al modello ad avvicinare le rappresentazioni di coppie simili (positive) in uno spazio di caratteristiche, allontanando invece le rappresentazioni di coppie dissimili (negative). Questo approccio è molto efficace per l'apprendimento di rappresentazioni significative da grandi insiemi di dati non etichettati, il che lo rende un metodo potente all'interno della più ampia categoria dell'apprendimento auto-supervisionato.

Come funziona?

Il processo di apprendimento contrastivo ruota attorno alla creazione di campioni positivi e negativi. Per un dato punto di dati, chiamato "ancora", il modello viene addestrato come segue:

Coppie positive: Una coppia positiva è costituita dall'ancora e da un punto dati semanticamente simile ad essa. Nella computer vision (CV), un campione positivo viene spesso creato applicando un forte incremento dei dati (come un ritaglio casuale, una rotazione o un jitter di colore) all'immagine di ancoraggio. Sia l'ancora che la versione aumentata sono considerate una coppia positiva perché provengono dalla stessa immagine di partenza.
Coppie negative: Una coppia negativa consiste nell'ancoraggio e in un punto di dati dissimili. In una configurazione tipica, tutte le altre immagini di un gruppo di addestramento vengono trattate come campioni negativi.
Obiettivo dell'addestramento: Il modello, spesso una rete neurale convoluzionale (CNN), elabora queste coppie e viene ottimizzato utilizzando una funzione di perdita contrastiva, come InfoNCE o Triplet Loss. Questa funzione di perdita penalizza il modello quando le coppie negative sono troppo vicine o quelle positive troppo distanti nello spazio di incorporazione. Lavori di ricerca importanti come SimCLR e MoCo hanno fatto progredire in modo significativo queste tecniche.

Applicazioni del mondo reale

L'apprendimento contrastivo eccelle nel pre-addestramento dei modelli per apprendere potenti rappresentazioni di caratteristiche che possono poi essere messe a punto per compiti specifici.

Ricerca visiva e recupero di immagini: Nel commercio elettronico, un utente potrebbe voler trovare prodotti visivamente simili a un'immagine caricata. Un modello preaddestrato con l'apprendimento contrastivo può mappare le immagini in uno spazio vettoriale in cui gli articoli simili sono raggruppati insieme. Ciò consente di realizzare sistemi efficienti di ricerca semantica e di raccomandazione, che sono fondamentali per migliorare l'esperienza del cliente nell'ambito dell'intelligenza artificiale nel settore della vendita al dettaglio.
Pre-training per le attività a valle: I modelli come Ultralytics YOLO11 possono trarre vantaggio da un pre-training su grandi insiemi di dati non etichettati, utilizzando metodi contrastivi. In questo modo il modello apprende caratteristiche visive robuste prima di essere messo a punto su un set di dati più piccolo ed etichettato per compiti come il rilevamento di oggetti o la segmentazione di istanze. Questo approccio spesso porta a prestazioni migliori e a una convergenza più rapida, soprattutto quando i dati etichettati sono scarsi, un concetto noto come apprendimento a pochi colpi.