Glossario

Messa a punto efficiente dei parametri (PEFT)

Scopri il Parameter-Efficient Fine-Tuning (PEFT) per adattare modelli AI di grandi dimensioni con risorse minime. Risparmia sui costi, evita l'overfitting e ottimizza l'implementazione!

Il Parameter-Efficient Fine-Tuning (PEFT) descrive un insieme di tecniche utilizzate nell'apprendimento automatico (ML) per adattare modelli pre-addestrati di grandi dimensioni (come i modelli di fondazione) a compiti specifici a valle senza dover aggiornare tutti i parametri del modello. I metodi PEFT si concentrano invece sulla modifica di un piccolo sottoinsieme di parametri o sull'aggiunta di un numero limitato di nuovi parametri. Questo approccio riduce drasticamente i costi di calcolo e di archiviazione associati alla messa a punto di modelli massicci, come i modelli linguistici di grandi dimensioni (LLM) o i modelli di visione su larga scala utilizzati nella computer vision (CV), rendendo la personalizzazione più accessibile ed efficiente.

Rilevanza e vantaggi

L'aumento dei modelli pre-addestrati di dimensioni estremamente grandi, spesso contenenti miliardi di parametri, ha reso i metodi tradizionali di messa a punto intensiva delle risorse. La messa a punto completa di questi modelli richiede una notevole potenza di calcolo (spesso più GPU di fascia alta), grandi quantità di memoria e un notevole spazio di archiviazione per ogni modello adattato. PEFT affronta queste sfide offrendo diversi vantaggi chiave:

Riduzione dei costi computazionali: L'addestramento di una piccola frazione di parametri richiede una potenza di calcolo e un tempo significativamente inferiori, consentendo un'iterazione e una sperimentazione più rapide, potenzialmente utilizzando piattaforme come Ultralytics HUB Cloud Training.
Requisiti di memoria ridotti: Meno parametri attivi significano meno memoria necessaria durante l'addestramento e l'inferenza, rendendo possibile la messa a punto di modelli di grandi dimensioni su hardware di livello consumer o su dispositivi edge.
Impronta di archiviazione ridotta: Invece di salvare una copia completa del modello ottimizzato per ogni attività, il PEFT spesso richiede solo la memorizzazione del piccolo insieme di parametri modificati o aggiunti, con un notevole risparmio di memoria.
Attenuazione dell'overfitting: Limitando il numero di parametri addestrabili, il PEFT può ridurre il rischio di overfitting, soprattutto quando la messa a punto avviene su set di dati più piccoli.
Prevenzione dell'oblio catastrofico: I metodi PEFT, mantenendo congelati la maggior parte dei parametri del modello di base, aiutano a conservare le conoscenze generali apprese durante il pre-addestramento, evitando l'oblio catastrofico in cui un modello perde le capacità precedenti durante l'apprendimento di nuovi compiti.
Distribuzione efficiente del modello: La dimensione ridotta dei parametri specifici dell'attività rende più semplice l'implementazione del modello, soprattutto in ambienti con risorse limitate come l'IA di frontiera.

Concetti e tecniche chiave

Il PEFT si basa sul concetto di apprendimento per trasferimento, in cui la conoscenza di un modello di base viene applicata a un nuovo compito. Mentre la messa a punto standard regola molti (o tutti) i livelli, il PEFT impiega metodi specializzati. Alcune tecniche PEFT popolari includono:

Adattatori: Piccoli moduli di rete neurale inseriti tra gli strati di un modello pre-addestrato. Durante la messa a punto vengono addestrati solo i parametri di questi moduli adattatori, mentre i pesi del modello originale rimangono congelati.
LoRA (Low-Rank Adaptation): Questa tecnica inietta matrici addestrabili a basso rango negli strati (spesso strati trasformatori ) di un modello di grandi dimensioni. Si ipotizza che il cambiamento necessario per adattare il modello abbia un basso "rango intrinseco" e possa essere rappresentato in modo efficiente. Per maggiori dettagli, leggi il documento di ricerca originale di LoRA.
Prefix-Tuning: Prepara una sequenza di vettori continui e specifici per l'attività (prefissi) all'ingresso, mantenendo congelati i parametri LLM di base. Vengono appresi solo i parametri dei prefissi.
Sintonizzazione a prompt: Simile al Prefix-Tuning, ma lo semplifica con l'aggiunta di "suggerimenti morbidi" (embeddings) addestrabili alla sequenza di input, che vengono ottimizzati direttamente attraverso la retropropagazione.

Librerie come la libreriaHugging Face PEFT forniscono implementazioni di vari metodi PEFT, rendendoli più facili da integrare nei comuni flussi di lavoro ML.

Distinzione dai concetti correlati

È importante distinguere la PEFT da altre tecniche di adattamento e ottimizzazione dei modelli:

Messa a punto: Il fine-tuning standard in genere aggiorna tutti o una parte significativa dei parametri del modello pre-addestrato su un nuovo set di dati. Il PEFT, invece, modifica solo una piccola parte dei parametri o ne aggiunge alcuni nuovi.
Model Pruning: Questa tecnica consiste nel rimuovere i parametri ridondanti o non importanti (pesi o connessioni) da un modello addestrato per ridurne le dimensioni e il costo computazionale, spesso dopo l' addestramento o la messa a punto completa. La PEFT si concentra sull'adattamento efficiente limitando i parametri addestrati inizialmente.
Distillazione della conoscenza: Comporta l'addestramento di un modello "studente" più piccolo per imitare il comportamento di un modello "insegnante" più grande e pre-addestrato. Il PEFT adatta direttamente il modello grande, anche se in modo efficiente.
Regolazione dell'iperparametro: Questo processo si concentra sulla ricerca delle impostazioni di configurazione ottimali per il processo di formazione (ad es, tasso di apprendimento, Dimensione del lotto) piuttosto che adattare i parametri appresi dal modello per un nuovo compito. Strumenti come il Ultralytics Tuner classe facilita questo.

Applicazioni del mondo reale

PEFT consente l'applicazione pratica di modelli di grandi dimensioni in diversi ambiti:

Elaborazione del linguaggio naturale (NLP): Adattare modelli come BERT o GPT-4 per attività specializzate come l'analisi del sentiment della letteratura medica, la sintesi di documenti legali o la creazione di chatbot specifici per il settore. Un'azienda potrebbe utilizzare il PEFT per perfezionare un LLM generico per il servizio clienti sulla propria base di conoscenze interne per ottenere risposte più accurate senza dover affrontare i costi di una riqualificazione completa. Gruppi di ricerca come lo Stanford NLP Group esplorano queste applicazioni.
Computer Vision (CV): Personalizzazione di modelli di visione di grandi dimensioni come Vision Transformers (ViT) o Ultralytics YOLO per compiti specifici di riconoscimento visivo. Ad esempio, l'adattamento di un modello pre-addestrato sull'ampio set di dati COCO per il rilevamento preciso di difetti unici nel controllo di qualità della produzione, l'esecuzione di una segmentazione delle immagini specializzata per l'analisi delle immagini mediche o l'identificazione di specie animali specifiche nelle trappole per la conservazione della fauna selvatica. Strumenti come Ultralytics HUB possono aiutare a gestire questi modelli adattati.

In sostanza, il Parameter-Efficient Fine-Tuning rende i modelli di AI all'avanguardia, come i modelliUltralytics YOLO , più versatili e convenienti da adattare a una vasta gamma di applicazioni specifiche, democratizzando l'accesso alle potenti capacità dell'AI.

Messa a punto efficiente dei parametri (PEFT)

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Rilevanza e vantaggi

Concetti e tecniche chiave

Distinzione dai concetti correlati

Applicazioni del mondo reale

Leggi altri blog

Unisciti alla comunità di Ultralytics

Messa a punto efficiente dei parametri (PEFT)

Addestra i modelli YOLO semplicementecon Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Rilevanza e vantaggi

Concetti e tecniche chiave

Distinzione dai concetti correlati

Applicazioni del mondo reale

Leggi altri blog

Unisciti alla comunità di Ultralytics

Addestra i modelli YOLO semplicemente
con Ultralytics HUB