Glossario

Messa a punto efficiente dei parametri (PEFT)

Scopri il Parameter-Efficient Fine-Tuning (PEFT) per adattare modelli AI di grandi dimensioni con risorse minime. Risparmia sui costi, evita l'overfitting e ottimizza l'implementazione!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Il Parameter-Efficient Fine-Tuning (PEFT) descrive un insieme di tecniche utilizzate nell'apprendimento automatico (ML) per adattare modelli pre-addestrati di grandi dimensioni (come i modelli di fondazione) a compiti specifici a valle senza dover aggiornare tutti i parametri del modello. I metodi PEFT si concentrano invece sulla modifica di un piccolo sottoinsieme di parametri o sull'aggiunta di un numero limitato di nuovi parametri. Questo approccio riduce drasticamente i costi di calcolo e di archiviazione associati alla messa a punto di modelli massicci, come i modelli linguistici di grandi dimensioni (LLM) o i modelli di visione su larga scala utilizzati nella computer vision (CV), rendendo la personalizzazione più accessibile ed efficiente.

Rilevanza e vantaggi

L'aumento dei modelli pre-addestrati di dimensioni estremamente grandi, spesso contenenti miliardi di parametri, ha reso i metodi tradizionali di messa a punto intensiva delle risorse. La messa a punto completa di questi modelli richiede una notevole potenza di calcolo (spesso più GPU di fascia alta), grandi quantità di memoria e un notevole spazio di archiviazione per ogni modello adattato. PEFT affronta queste sfide offrendo diversi vantaggi chiave:

  • Riduzione dei costi computazionali: L'addestramento di una piccola frazione di parametri richiede una potenza di calcolo e un tempo significativamente inferiori, consentendo un'iterazione e una sperimentazione più rapide, potenzialmente utilizzando piattaforme come Ultralytics HUB Cloud Training.
  • Requisiti di memoria ridotti: Meno parametri attivi significano meno memoria necessaria durante l'addestramento e l'inferenza, rendendo possibile la messa a punto di modelli di grandi dimensioni su hardware di livello consumer o su dispositivi edge.
  • Impronta di archiviazione ridotta: Invece di salvare una copia completa del modello ottimizzato per ogni attività, il PEFT spesso richiede solo la memorizzazione del piccolo insieme di parametri modificati o aggiunti, con un notevole risparmio di memoria.
  • Attenuazione dell'overfitting: Limitando il numero di parametri addestrabili, il PEFT può ridurre il rischio di overfitting, soprattutto quando la messa a punto avviene su set di dati più piccoli.
  • Prevenzione dell'oblio catastrofico: I metodi PEFT, mantenendo congelati la maggior parte dei parametri del modello di base, aiutano a conservare le conoscenze generali apprese durante il pre-addestramento, evitando l'oblio catastrofico in cui un modello perde le capacità precedenti durante l'apprendimento di nuovi compiti.
  • Distribuzione efficiente del modello: La dimensione ridotta dei parametri specifici dell'attività rende più semplice l'implementazione del modello, soprattutto in ambienti con risorse limitate come l'IA di frontiera.

Concetti e tecniche chiave

Il PEFT si basa sul concetto di apprendimento per trasferimento, in cui la conoscenza di un modello di base viene applicata a un nuovo compito. Mentre la messa a punto standard regola molti (o tutti) i livelli, il PEFT impiega metodi specializzati. Alcune tecniche PEFT popolari includono:

  • Adattatori: Piccoli moduli di rete neurale inseriti tra gli strati di un modello pre-addestrato. Durante la messa a punto vengono addestrati solo i parametri di questi moduli adattatori, mentre i pesi del modello originale rimangono congelati.
  • LoRA (Low-Rank Adaptation): Questa tecnica inietta matrici addestrabili a basso rango negli strati (spesso strati trasformatori ) di un modello di grandi dimensioni. Si ipotizza che il cambiamento necessario per adattare il modello abbia un basso "rango intrinseco" e possa essere rappresentato in modo efficiente. Per maggiori dettagli, leggi il documento di ricerca originale di LoRA.
  • Prefix-Tuning: Prepara una sequenza di vettori continui e specifici per l'attività (prefissi) all'ingresso, mantenendo congelati i parametri LLM di base. Vengono appresi solo i parametri dei prefissi.
  • Sintonizzazione a prompt: Simile al Prefix-Tuning, ma lo semplifica con l'aggiunta di "suggerimenti morbidi" (embeddings) addestrabili alla sequenza di input, che vengono ottimizzati direttamente attraverso la retropropagazione.

Librerie come la libreriaHugging Face PEFT forniscono implementazioni di vari metodi PEFT, rendendoli più facili da integrare nei comuni flussi di lavoro ML.

Distinzione dai concetti correlati

È importante distinguere la PEFT da altre tecniche di adattamento e ottimizzazione dei modelli:

  • Messa a punto: Il fine-tuning standard in genere aggiorna tutti o una parte significativa dei parametri del modello pre-addestrato su un nuovo set di dati. Il PEFT, invece, modifica solo una piccola parte dei parametri o ne aggiunge alcuni nuovi.
  • Model Pruning: Questa tecnica consiste nel rimuovere i parametri ridondanti o non importanti (pesi o connessioni) da un modello addestrato per ridurne le dimensioni e il costo computazionale, spesso dopo l' addestramento o la messa a punto completa. La PEFT si concentra sull'adattamento efficiente limitando i parametri addestrati inizialmente.
  • Distillazione della conoscenza: Comporta l'addestramento di un modello "studente" più piccolo per imitare il comportamento di un modello "insegnante" più grande e pre-addestrato. Il PEFT adatta direttamente il modello grande, anche se in modo efficiente.
  • Regolazione dell'iperparametro: Questo processo si concentra sulla ricerca delle impostazioni di configurazione ottimali per il processo di formazione (ad es, tasso di apprendimento, Dimensione del lotto) piuttosto che adattare i parametri appresi dal modello per un nuovo compito. Strumenti come il Ultralytics Tuner classe facilita questo.

Applicazioni del mondo reale

PEFT consente l'applicazione pratica di modelli di grandi dimensioni in diversi ambiti:

In sostanza, il Parameter-Efficient Fine-Tuning rende i modelli di AI all'avanguardia, come i modelliUltralytics YOLO , più versatili e convenienti da adattare a una vasta gamma di applicazioni specifiche, democratizzando l'accesso alle potenti capacità dell'AI.

Leggi tutto