Glossario

BERT (Rappresentazioni Encoder Bidirezionali da Trasformatori)

Scopri BERT, il rivoluzionario modello NLP di Google. Scopri come la sua comprensione bidirezionale del contesto trasforma compiti di intelligenza artificiale come la ricerca e i chatbot.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

BERT, acronimo di Bidirectional Encoder Representations from Transformers, è una tecnica di riferimento per il pre-training dell'elaborazione del linguaggio naturale (NLP) sviluppata dai ricercatori di Google AI Language. Introdotta nel 2018 con l'autorevole articolo"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", BERT ha rivoluzionato il modo in cui le macchine comprendono il linguaggio umano. Si tratta di una delle prime rappresentazioni linguistiche profondamente bidirezionali e non supervisionate, preaddestrate utilizzando solo un corpus di testo semplice come Wikipedia. BERT sfrutta la potente architettura Transformer, in particolare la parte di codifica, per elaborare le parole in relazione a tutte le altre parole di una frase simultaneamente, anziché in sequenza. Ciò consente una comprensione più profonda del contesto rispetto ai precedenti modelli unidirezionali.

Come funziona Bert

A differenza dei modelli precedenti che elaboravano il testo in una sola direzione (da sinistra a destra o da destra a sinistra), il BERT elabora l'intera sequenza di parole in una sola volta utilizzando il suo codificatore Transformer e il meccanismo di auto-attenzione. Questo approccio bidirezionale gli permette di cogliere il contesto di una parola in base alle parole che la circondano, sia quelle che la precedono che quelle che la seguono. Ad esempio, il BERT è in grado di distinguere il significato di "banca" in "Devo andare in banca a ritirare dei contanti" rispetto a "La riva del fiume era fangosa" considerando l'intero contesto della frase.

BERT apprende queste complesse relazioni linguistiche durante una fase di pre-formazione su vaste quantità di dati testuali. Ciò comporta due compiti principali non supervisionati:

  1. Modello linguistico mascherato (MLM): Una certa percentuale di token di input (parole o sottoparole) viene mascherata (nascosta) in modo casuale e il modello impara a prevedere questi token mascherati in base al loro contesto.
  2. Next Sentence Prediction (NSP): il modello riceve coppie di frasi e impara a prevedere se la seconda frase è l'effettiva frase successiva alla prima nel testo originale o una frase casuale.

Il risultato di questo pre-addestramento è un modello con un ricco embedding linguistico che cattura la sintassi e la semantica. Questo modello BERT pre-addestrato può poi essere rapidamente adattato o"messo a punto" per vari compiti specifici di NLP a valle, utilizzando insiemi di dati più piccoli e specifici per il compito. Questo processo di sfruttamento delle conoscenze pre-addestrate è una forma di apprendimento per trasferimento.

Caratteristiche e vantaggi principali

  • Contesto profondo bidirezionale: L'innovazione principale di BERT è la capacità di comprendere il contesto di una parola osservando contemporaneamente le parole che la precedono e quelle che la seguono. Questo porta a una comprensione molto più ricca e accurata delle sfumature linguistiche rispetto ai modelli unidirezionali come le prime versioni di GPT.
  • Prestazioni all'avanguardia: Al momento del rilascio, BERT ha ottenuto risultati all'avanguardia su un'ampia gamma di benchmark NLP, tra cui la risposta alle domande (come il dataset SQuAD) e la comprensione del linguaggio naturale (NLU).
  • Una centrale di apprendimento per trasferimento: I modelli pre-addestrati di BERT fungono da potente base. Mettendo a punto BERT su compiti specifici come l'analisi del sentiment o il Named Entity Recognition (NER), gli sviluppatori possono ottenere prestazioni elevate con una quantità di dati e tempi di addestramento significativamente inferiore rispetto all'addestramento di un modello da zero.
  • Ampia disponibilità: I modelli BERT pre-addestrati sono facilmente accessibili attraverso piattaforme come Hugging Face e possono essere utilizzati con i più diffusi framework di Deep Learning (DL), come ad esempio PyTorch e TensorFlow.

Applicazioni del mondo reale

La capacità del BERT di comprendere le sfumature del linguaggio ha portato a miglioramenti significativi in diverse applicazioni di intelligenza artificiale (AI) del mondo reale:

  • Motori di ricerca: Google Search ha notoriamente incorporato il BERT per comprendere meglio le query degli utenti, soprattutto quelle conversazionali o complesse, portando a risultati di ricerca più pertinenti. Come spiegato in un post del Google AI Blog, il BERT aiuta a capire l'intento di ricerche come "puoi procurare una medicina per una farmacia" comprendendo l'importanza di preposizioni come "per" e "per".
  • Chatbot e assistenti virtuali: Il BERT migliora la capacità dei chatbot e degli assistenti virtuali di comprendere le richieste degli utenti in modo più accurato, di mantenere il contesto nelle conversazioni e di fornire risposte più utili nel servizio clienti, nei sistemi di prenotazione e nel reperimento di informazioni.
  • Analisi del sentimento: Le aziende utilizzano modelli basati su BERT per analizzare le recensioni dei clienti, i commenti sui social media e le risposte ai sondaggi per valutare l'opinione pubblica e il feedback sui prodotti con maggiore precisione.
  • Riassunto del testo e risposta alle domande: Il BERT può essere perfezionato per creare sistemi che riassumono automaticamente documenti lunghi(riassunto del testo) o rispondono a domande basate su un determinato passaggio di testo.

Sebbene BERT sia utilizzato principalmente in NLP, l'architettura Transformer che ha reso popolare ha ispirato anche progressi nella Computer Vision (CV), come i Vision Transformers (ViT) utilizzati in modelli come RT-DETR. Piattaforme come Ultralytics HUB facilitano l'addestramento e la distribuzione di vari modelli di intelligenza artificiale, compresi quelli costruiti sui principi dei Transformer.

Leggi tutto