Glossario

Punteggio F1

Scopri l'importanza del punteggio F1 nell'apprendimento automatico! Scopri come bilancia precisione e richiamo per una valutazione ottimale del modello.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Il punteggio F1 è una metrica molto utilizzata nell'apprendimento automatico (ML) e nel reperimento di informazioni per valutare le prestazioni dei modelli di classificazione binaria. Fornisce un unico punteggio che bilancia altre due importanti metriche: precisione e richiamo. Questo equilibrio rende l'F1-Score particolarmente prezioso in situazioni in cui la distribuzione delle classi non è uniforme (set di dati sbilanciati) o quando sia i falsi positivi che i falsi negativi comportano costi significativi. Viene calcolato come media armonica di precisione e richiamo, con un intervallo compreso tra 0 e 1, dove 1 significa precisione e richiamo perfetti.

Capire la precisione e il richiamo

Per comprendere il punteggio F1, è essenziale capire i suoi componenti:

  • Precisione: Misura l'accuratezza delle previsioni positive. Risponde alla domanda: "Di tutte le istanze che il modello ha previsto come positive, quante erano effettivamente positive?". Un'elevata precisione significa che il modello commette pochi errori di falso positivo.
  • Richiamo (sensibilità): Misura la capacità del modello di identificare tutte le istanze effettivamente positive. Risponde alla domanda: "Di tutti i casi effettivamente positivi, quanti ne ha identificati correttamente il modello?". Un'alta percentuale di richiamo significa che il modello commette pochi errori falsi negativi.

Il punteggio F1 combina questi due parametri calcolando la loro media armonica. A differenza della media semplice, la media armonica penalizza maggiormente i valori estremi, il che significa che un modello deve ottenere prestazioni ragionevolmente buone sia in termini di precisione che di richiamo per ottenere un F1-Score elevato.

Perché utilizzare il punteggio F1?

L'accuratezza (la percentuale di predizioni corrette nel complesso) è una metrica comune, ma può essere fuorviante, soprattutto in caso di set di dati sbilanciati. Ad esempio, se solo l'1% dei punti dati appartiene alla classe positiva, un modello che predice tutto come negativo raggiunge il 99% di accuratezza ma fallisce completamente nell'identificare la classe positiva.

L'F1-Score affronta questo problema concentrandosi sulle prestazioni della classe positiva attraverso la precisione e il richiamo. È preferibile quando:

  1. Lo squilibrio di classe è presente: Fornisce una valutazione migliore dell'accuratezza quando una classe supera di gran lunga l'altra.
  2. Sia i falsi positivi che i falsi negativi sono importanti: Gli scenari in cui la minimizzazione di entrambi i tipi di errori è cruciale traggono vantaggio dal bilanciamento dell'F1-Score. La scelta di ottimizzare la precisione o il richiamo spesso comporta un compromesso; l'F1-Score aiuta a trovare un modello che bilanci questo compromesso tra precisione e richiamo.

F1-Score in azione: Esempi del mondo reale

Il punteggio F1 è fondamentale in diverse applicazioni di intelligenza artificiale (AI):

  1. Analisi di immagini mediche per il rilevamento di malattie: Consideriamo un modello di intelligenza artificiale progettato per rilevare i tumori cancerosi dalle scansioni utilizzando la computer vision (CV).

    • Un falso negativo (basso richiamo) significa non riuscire a rilevare il cancro quando è presente, il che può avere gravi conseguenze per il paziente.
    • Un falso positivo (bassa precisione) significa diagnosticare un cancro quando non c'è, con conseguente stress, costi e ulteriori esami invasivi non necessari.
    • Il punteggio F1 aiuta a valutare modelli come quelli utilizzati nelle soluzioni sanitarie di intelligenza artificiale, assicurando un equilibrio tra l'individuazione dei casi reali (richiamo) e l'evitare diagnosi errate (precisione). L'addestramento di questi modelli può avvenire con set di dati come quello per il rilevamento del tumore al cervello.
  2. Filtraggio delle e-mail di spam: I servizi di posta elettronica utilizzano modelli di classificazione per identificare lo spam.

    • Per catturare il maggior numero possibile di spam è necessario un elevato richiamo. Lo spam mancante (falso negativo) infastidisce gli utenti.
    • Un'elevata precisione è fondamentale per evitare di contrassegnare le email legittime ("ham") come spam (falso positivo). Sbagliare la classificazione di un'email importante può essere molto problematico.
    • Il punteggio F1 fornisce una misura adeguata per valutare l'efficacia complessiva del filtro antispam, bilanciando la necessità di filtrare i messaggi indesiderati senza perdere quelli importanti. Questo metodo utilizza tecniche di elaborazione del linguaggio naturale (NLP).

F1-Score vs. metriche correlate

È importante distinguere il punteggio F1 da altre metriche di valutazione:

  • Accuratezza: Misura la correttezza complessiva, ma può essere inaffidabile per le classi sbilanciate.
  • Precisione e Richiamo: Il punteggio F1 li combina. Usa la precisione quando è fondamentale ridurre al minimo i falsi positivi; usa il richiamo quando è fondamentale ridurre al minimo i falsi negativi.
  • Precisione media (mAP): Una metrica primaria per le attività di rilevamento degli oggetti, come quelle eseguite da Ultralytics YOLO mAP calcola la media della precisione su vari livelli di richiamo e spesso su più classi di oggetti e soglie di Intersection over Union (IoU). Pur essendo correlato alla precisione e al richiamo, mAP valuta in modo specifico le prestazioni di rilevamento degli oggetti, considerando sia la classificazione che la localizzazione. Puoi esplorare le metriche delle prestazioni diYOLO per maggiori dettagli. Vedi i confronti tra modelli come YOLO11 e YOLOv8 che spesso si basano su mAP.
  • Intersezione su Unione (IoU): Misura la sovrapposizione tra un riquadro di delimitazione previsto e il riquadro di delimitazione della verità a terra nel rilevamento degli oggetti. Valuta la qualità della localizzazione, non le prestazioni di classificazione come l'F1-Score.
  • Matrice di confusione: Una tabella che riassume le prestazioni di classificazione, mostrando i Veri Positivi, i Veri Negativi, i Falsi Positivi e i Falsi Negativi, da cui si ricavano Precisione, Richiamo, Accuratezza e F1-Score.

F1-Score nell'ecosistema Ultralytics

All'interno dell'ecosistema Ultralytics , mentre mAP è lo standard per la valutazione dei modelli di rilevamento degli oggetti come YOLO11il punteggio F1 può essere importante per valutare le capacità del compito di classificazione o per valutare le prestazioni di una classe specifica all'interno di un problema di rilevamento o di segmentazione, soprattutto se lo sbilanciamento delle classi è un problema. Strumenti come Ultralytics HUB facilitano l'addestramento di modelli personalizzati e il monitoraggio di varie metriche di performance durante la valutazione del modello. La comprensione di metriche come l'F1-Score aiuta a mettere a punto i modelli per esigenze specifiche utilizzando tecniche come la regolazione degli iperparametri. Framework come PyTorch e librerie come Scikit-learn forniscono implementazioni per il calcolo dell'F1-Score.

Leggi tutto