L'apprendimento supervisionato è una categoria fondamentale dell'apprendimento automatico (ML) in cui gli algoritmi imparano da un set di dati contenenti coppie input-output, noti come dati etichettati. In sostanza, l'algoritmo è "supervisionato" perché impara confrontando le sue previsioni sui dati di input con le uscite corrette (etichette) note fornite nei dati di addestramento. L'obiettivo è che l'algoritmo impari una funzione di mappatura in grado di prevedere accuratamente l'output per nuovi input non visti. Questo approccio è fondamentale per molte applicazioni moderne di Intelligenza Artificiale (AI), in quanto consente ai sistemi di fare previsioni o prendere decisioni basate su esempi storici.
Come funziona l'apprendimento supervisionato
Il processo inizia con un set di dati in cui ogni punto è costituito da caratteristiche di input e da una corrispondente etichetta di output corretta. Ad esempio, in un'attività di classificazione di immagini, gli input sono immagini e le etichette sono le categorie a cui appartengono (ad esempio, "gatto", "cane"). L'algoritmo effettua iterativamente delle previsioni sui dati di addestramento e regola i suoi parametri interni utilizzando un algoritmo di ottimizzazione come la discesa del gradiente per minimizzare la differenza tra le sue previsioni e le etichette effettive, misurata da una funzione di perdita. L'addestramento continua finché il modello non raggiunge un livello di accuratezza soddisfacente sui dati di validazione.
Rilevanza e applicazioni
L'apprendimento supervisionato è incredibilmente versatile ed è alla base di una vasta gamma di applicazioni in cui i dati storici possono prevedere eventi futuri o classificare nuove informazioni. La sua capacità di apprendere direttamente da esempi etichettati lo rende adatto a compiti che richiedono un'elevata precisione. Molte attività di computer vision si basano sull'apprendimento supervisionato, tra cui quelle eseguite da modelli come Ultralytics YOLO.
Ecco due esempi concreti:
- Analisi delle immagini mediche: I modelli di apprendimento supervisionato possono essere addestrati su set di dati di scansioni mediche (come radiografie o risonanze magnetiche) etichettati da radiologi. Ad esempio, un modello può imparare a rilevare i tumori nelle immagini mediche addestrandosi su immagini etichettate come "tumore" o "senza tumore". Questo aiuta i medici nella diagnosi e nella pianificazione del trattamento, contribuendo in modo significativo alle soluzioni di IA nel settore sanitario.
- Analisi del sentimento: Le aziende spesso vogliono capire le opinioni dei clienti da dati testuali come le recensioni o i post sui social media. Un modello supervisionato può essere addestrato su esempi di testo etichettati con sentimenti ("positivo", "negativo", "neutro"). Una volta addestrato, può classificare automaticamente i nuovi testi, fornendo preziose informazioni per le ricerche di mercato e il servizio clienti. Scopri di più sulla sentiment analysis.
Altre applicazioni comuni sono il rilevamento di oggetti in immagini e video (utilizzato nei veicoli autonomi e nei sistemi di sicurezza), il filtraggio delle e-mail di spam, la previsione dei prezzi delle case( attività diregressione ) e il riconoscimento facciale.
Concetti chiave
Diversi concetti sono fondamentali per comprendere l'apprendimento supervisionato:
- Dati etichettati: La base dell'apprendimento supervisionato, che consiste in dati di input abbinati a etichette di output corrette. La raccolta e l'annotazione dei dati di alta qualità sono fondamentali.
- Caratteristiche: Variabili di input misurabili o caratteristiche utilizzate dal modello per fare previsioni. L 'ingegnerizzazione delle caratteristiche può avere un impatto significativo sulle prestazioni.
- Etichette (o obiettivi): I valori di uscita corretti associati alle caratteristiche di ingresso nei dati di formazione.
- Classificazione: Un tipo di compito di apprendimento supervisionato in cui l'obiettivo è prevedere un'etichetta di categoria discreta (ad esempio, classificare le e-mail come "spam" o "non spam", o le immagini in classi diverse utilizzando modelli come YOLO per la classificazione).
- Regressione: Un tipo di attività di apprendimento supervisionato in cui l'obiettivo è prevedere un valore numerico continuo (ad esempio, prevedere la temperatura, i prezzi delle azioni o i valori delle case utilizzando algoritmi come la regressione lineare).
- Algoritmi comuni: Include metodi come la Regressione Logistica, le Macchine Vettoriali di Supporto (SVM), gli Alberi Decisionali, le Foreste Casuali e vari tipi di Reti Neurali (NN), in particolare le Reti Neurali Convoluzionali (CNN) per compiti legati alle immagini, spesso implementate utilizzando framework come PyTorch.
Confronto con altri paradigmi di apprendimento
L'apprendimento supervisionato si distingue dagli altri paradigmi primari di apprendimento automatico:
- Apprendimento non supervisionato: Gli algoritmi apprendono modelli da dati non etichettati senza una guida esplicita. I compiti più comuni includono il clustering (raggruppamento di punti di dati simili) e la riduzione della dimensionalità (semplificazione dei dati). Viene utilizzato quando non sono disponibili dati etichettati o quando l'obiettivo è scoprire strutture nascoste.
- Apprendimento per rinforzo: Gli algoritmi imparano interagendo con l'ambiente e ricevendo un feedback sotto forma di premi o penalità. L'obiettivo è imparare una politica (una strategia di scelta delle azioni) che massimizzi le ricompense cumulative nel tempo. Viene spesso utilizzato nella robotica, nei giochi e nei sistemi di navigazione.
In sintesi, l'apprendimento supervisionato è una tecnica potente che sfrutta i dati etichettati per addestrare modelli per compiti predittivi, costituendo la spina dorsale di molte applicazioni di AI di successo, comprese quelle sviluppate e supportate da Ultralytics e da piattaforme come Ultralytics HUB.