Glossario

Underfitting

Imparate a identificare, prevenire e risolvere il problema dell'underfitting nei modelli di apprendimento automatico con i consigli degli esperti, le strategie e gli esempi reali.

L'underfitting è un problema comune nell'apprendimento automatico (ML), quando un modello è troppo semplice per catturare i modelli sottostanti nei dati di addestramento. Questa semplicità gli impedisce di apprendere la relazione tra le caratteristiche di input e la variabile target, portando a prestazioni scarse sia sui dati su cui è stato addestrato sia su nuovi dati non visti. Un modello underfit ha un elevato bias, cioè fa ipotesi forti, spesso errate, sui dati. Il risultato è un modello che non riesce a raggiungere un livello elevato di accuratezza e non può generalizzare bene.

Underfitting vs. Overfitting Overfitting

L'underfitting e l'overfitting sono due sfide fondamentali nel campo del ML che riguardano la capacità di un modello di generalizzare dai dati di addestramento ai nuovi dati. Rappresentano due estremi nello spettro della complessità del modello.

  • Underfitting: Il modello è troppo semplice e presenta un bias elevato. Non riesce ad apprendere la struttura sottostante dei dati, con il risultato di un valore elevato della funzione di perdita e di prestazioni scarse sia sul set di dati di addestramento che su quello di validazione.
  • Overfitting: Il modello è troppo complesso e ha una varianza elevata. Apprende troppo bene i dati di addestramento, compresi il rumore e le fluttuazioni casuali. Ciò si traduce in prestazioni eccellenti sul set di addestramento ma scarse sui dati non visti, poiché il modello ha essenzialmente memorizzato gli esempi di addestramento invece di apprendere modelli generali.

L'obiettivo finale del ML è quello di trovare un equilibrio tra questi due elementi, un concetto noto come bias-varianza, per creare un modello che si generalizzi efficacemente a nuovi scenari del mondo reale. L'analisi delle curve di apprendimento è un metodo comune per diagnosticare se un modello è underfitting, overfitting o ben adattato.

Cause e soluzioni del sottoadattamento

Individuare e risolvere il problema dell'underfitting è fondamentale per costruire modelli efficaci. Il problema deriva in genere da alcune cause comuni, ognuna con le relative soluzioni.

  • Il modello è troppo semplice: L'utilizzo di un modello lineare per un problema complesso e non lineare è una classica causa di underfitting.
    • Soluzione: Aumentare la complessità del modello. Ciò potrebbe comportare il passaggio a un'architettura del modello più potente, come una rete neurale più profonda o un modello preaddestrato più grande, come il passaggio da una variante del modello YOLO di Ultralytics più piccola a una più grande. È possibile esplorare vari confronti tra i modelli YOLO per selezionare un'architettura più adatta.
  • Caratteristiche insufficienti o di scarsa qualità: Se le caratteristiche di input fornite al modello non contengono informazioni sufficienti per fare previsioni accurate, il modello si sottoadatterà.
  • Formazione insufficiente: Il modello potrebbe non essere stato addestrato per un numero sufficiente di epoche per imparare i modelli nei dati.
  • Regolarizzazione eccessiva: Tecniche come Regolarizzazione L1 e L2 o alta abbandono sono utilizzati per evitare l'overfitting, ma se sono troppo aggressivi, possono limitare troppo il modello e causare l'underfitting.
    • Soluzione: Ridurre la quantità di regolarizzazione. Ciò potrebbe significare ridurre il termine di penalità nelle funzioni di regolarizzazione o ridurre il tasso di abbandono. Seguire le migliori pratiche per l'addestramento dei modelli può aiutare a trovare il giusto equilibrio.

Esempi di underfitting nel mondo reale

  1. Classificatore di immagini semplice: Immaginate di addestrare una rete neurale convoluzionale (CNN) molto semplice, con solo uno o due strati, a un compito complesso di classificazione delle immagini, come l'identificazione di migliaia di categorie di oggetti nel dataset ImageNet. La capacità limitata del modello gli impedirebbe di apprendere le caratteristiche complesse necessarie per distinguere tra così tante classi, con conseguente bassa precisione sia sui dati di addestramento che su quelli di prova. Framework come PyTorch e TensorFlow forniscono gli strumenti per costruire architetture più sofisticate per superare questo problema.
  2. Manutenzione predittiva di base: Considerare l'uso di un semplice modello di regressione lineare per la modellazione predittiva, per stimare quando una macchina si guasterà solo in base alla sua temperatura di esercizio. Se i guasti di una macchina sono in realtà influenzati da un'interazione complessa e non lineare di fattori quali vibrazioni, età e pressione, il semplice modello lineare non è adeguato. Non è in grado di catturare la reale complessità del sistema, con conseguenti scarse prestazioni predittive e l'incapacità di anticipare con precisione i guasti. Un modello più complesso, come una macchina di gradient boosting o una rete neurale, sarebbe più appropriato.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti