Controllo verde
Link copiato negli appunti

Florence-2: l'ultimo modello di visione-linguaggio di Microsoft

Ti presentiamo Florence-2, il modello di linguaggio visivo di Microsoft che offre prestazioni migliorate nel rilevamento degli oggetti, nella segmentazione e nello scatto a zero con grande efficienza.

Nel giugno del 2024, Microsoft ha presentato Florence-2, un modello di linguaggio visivo multimodale (VLM) progettato per gestire un'ampia gamma di compiti, tra cui il rilevamento di oggetti, la segmentazione, la didascalia di immagini e il grounding. Florence-2 stabilisce un nuovo punto di riferimento per le prestazioni "zero-shot", ovvero è in grado di eseguire compiti senza un addestramento specifico precedente, e vanta una dimensione del modello inferiore rispetto ad altri modelli di linguaggio visivo all'avanguardia.

La versatilità e le prestazioni migliorate di Florence-2 possono avere un impatto significativo su diversi settori industriali, migliorando l'accuratezza e riducendo la necessità di una formazione approfondita. In questo articolo esploreremo le caratteristiche innovative di Florence-2, confronteremo le sue prestazioni con quelle di altri VLM e discuteremo le sue potenziali applicazioni.

Che cos'è Florence-2?

Florence-2 è in grado di gestire una serie di compiti all'interno di un'unica struttura unificata. Le impressionanti capacità del modello sono in parte dovute al suo enorme set di dati di addestramento chiamato FLD-5B. FLD-5B comprende 5,4 miliardi di annotazioni su 126 milioni di immagini. Questo set di dati completo è stato creato appositamente per dotare Florence-2 delle capacità necessarie a gestire un'ampia gamma di attività di visione con elevata precisione ed efficienza. 

Ecco un approfondimento sulle attività supportate da Florence-2:

  • Rilevamento degli oggetti: È in grado di identificare e localizzare gli oggetti all'interno delle immagini con grande precisione.
  • Segmentazione: Questo compito consiste nel dividere un'immagine in segmenti significativi per facilitarne l'analisi e l'interpretazione.
  • Didascalie delle immagini: Florence-2 è in grado di generare didascalie descrittive per le immagini che forniscono contesto e dettagli.
  • Messa a terra visiva: Il modello può associare frasi o parole specifiche in una didascalia con le regioni corrispondenti nell'immagine.
  • Prestazioni a colpo zero: È in grado di svolgere attività senza un addestramento specifico.
Figura 1. Capire come è stato addestrato Florence-2.

Il modello supporta compiti sia basati sul testo che sulle regioni. Al vocabolario del modello vengono aggiunti speciali token di localizzazione per compiti che riguardano regioni specifiche di un'immagine. Questi token aiutano il modello a comprendere forme diverse, come i rettangoli intorno agli oggetti (rappresentazione a scatola), le forme a quattro lati (rappresentazione a scatola quadrata) e le forme a molti lati (rappresentazione a poligono). Il modello viene addestrato con un metodo chiamato cross-entropy loss, che lo aiuta ad apprendere confrontando le sue previsioni con le risposte corrette e regolando di conseguenza i suoi parametri interni.

Creare il set di dati FLD-5B

Il dataset FLD-5B comprende diversi tipi di annotazioni: descrizioni di testo, coppie di regioni e testo e combinazioni di testo, frasi e regioni. È stato creato attraverso un processo in due fasi che prevede la raccolta e l'annotazione dei dati. Le immagini sono state reperite da dataset popolari come ImageNet-22k, Object 365, Open Images, Conceptual Captions e LAION. Le annotazioni presenti nel dataset FLD-5B sono per lo più sintetiche, cioè generate automaticamente anziché etichettate manualmente. 

Figura 2. Creazione del set di dati FLD-5B.

Inizialmente, modelli specializzati in compiti specifici, come il rilevamento o la segmentazione degli oggetti, hanno creato queste annotazioni. Successivamente, è stato utilizzato un processo di filtraggio e miglioramento per assicurarsi che le annotazioni fossero dettagliate e accurate. Dopo aver eliminato il rumore, il set di dati è stato sottoposto a un perfezionamento iterativo, in cui i risultati di Florence-2 sono stati utilizzati per aggiornare e migliorare continuamente le annotazioni. 

Capire l'architettura del modello di Florence-2

L'architettura del modello Florence-2 segue un approccio di apprendimento da sequenza a sequenza. Ciò significa che il modello elabora una sequenza di input (come un'immagine con una richiesta di testo) e genera una sequenza di output (come una descrizione o un'etichetta) in modo graduale. Nella struttura sequence-to-sequence, ogni attività viene trattata come un problema di traduzione: il modello prende un'immagine in ingresso e una richiesta specifica per l'attività e genera l'output corrispondente.

Figura 3. Architettura del modello di linguaggio di visione di Florence-2.

Il cuore dell'architettura del modello è un trasformatore encoder-decoder multimodale, che combina un encoder di immagini e un encoder-decoder multimodale. Il codificatore di immagini, chiamato DaViT (Data-efficient Vision Transformer), elabora le immagini in ingresso convertendole in embedding di token visivi - rappresentazioni compatte dell'immagine che catturano sia le informazioni spaziali (dove si trovano le cose) sia quelle semantiche (cosa sono le cose). Questi token visivi vengono poi combinati con embeddings di testo (rappresentazioni del testo), consentendo al modello di unire senza soluzione di continuità dati testuali e visivi.

Confronto tra Florence-2 e altri VLM

Florence-2 si distingue dagli altri modelli di linguaggio visuale per le sue impressionanti capacità di zero colpi. A differenza di modelli come PaliGemma, che richiedono un'ampia messa a punto per adattarsi ai vari compiti, Florence-2 funziona bene fin da subito. Inoltre, Florence-2 è in grado di competere con modelli più grandi come GPT-4V e Flamingo, che spesso dispongono di molti più parametri ma non sempre riescono a eguagliare le prestazioni di Florence-2. Ad esempio, Florence-2 ottiene risultati migliori a colpo zero rispetto a Kosmos-2, nonostante Kosmos-2 abbia un numero di parametri più che doppio.

Nei test di benchmark, Florence-2 ha dimostrato prestazioni notevoli in compiti come la didascalia COCO e la comprensione delle espressioni di riferimento. Ha superato modelli come PolyFormer e UNINEXT nei compiti di rilevamento e segmentazione degli oggetti sul dataset COCO. Si tratta di una scelta altamente competitiva per le applicazioni del mondo reale in cui sono fondamentali sia le prestazioni che l'efficienza delle risorse.

Applicazioni di Firenze-2

Florence-2 può essere utilizzato in molti settori diversi, come l'intrattenimento, l'accessibilità, l'istruzione, ecc. Vediamo alcuni esempi per capire meglio.

Applicazioni della didascalia delle immagini

Quando sei su una piattaforma di streaming e cerchi di decidere cosa guardare, potresti leggere un riassunto di un film per aiutarti a scegliere. E se la piattaforma potesse anche fornire una descrizione dettagliata della locandina del film? Florence-2 può rendere possibile tutto questo grazie alla didascalia delle immagini, che genera un testo descrittivo per le immagini. Florence-2 può generare descrizioni dettagliate delle locandine dei film, rendendo le piattaforme di streaming più inclusive per gli utenti ipovedenti. Analizzando gli elementi visivi di una locandina, come i personaggi, lo scenario e il testo, Florence-2 può creare descrizioni dettagliate che trasmettono il contenuto e l'atmosfera della locandina. L'immagine qui sotto mostra il livello di dettaglio che Florence-2 può fornire nelle sue descrizioni.

Figura 4. Un esempio di didascalia di un'immagine generata da Florence-2. 

Ecco altri esempi in cui la didascalia delle immagini può essere utile:

  • E-commerce: Le didascalie delle immagini possono fornire descrizioni dettagliate delle immagini dei prodotti, aiutando i clienti a comprenderne meglio le caratteristiche e i dettagli.
  • Viaggi e turismo: Può fornire descrizioni dettagliate di punti di riferimento e attrazioni nelle guide e nelle app di viaggio.
  • Istruzione: La didascalia delle immagini può etichettare e descrivere immagini e diagrammi didattici, favorendo l'insegnamento e l'apprendimento.
  • Immobili: Può fornire descrizioni dettagliate di immagini di immobili che evidenziano le caratteristiche e i servizi per i potenziali acquirenti.

Usare la messa a terra visiva mentre si cucina

Florence-2 può essere utilizzato anche per arricchire le esperienze culinarie. Ad esempio, un libro di cucina online potrebbe utilizzare Florence-2 per mettere a fuoco ed etichettare visivamente le parti di un'immagine di una ricetta complessa. La messa a fuoco visiva è utile in questo caso perché collega parti specifiche dell'immagine al testo descrittivo corrispondente. Ogni ingrediente e ogni fase possono essere accuratamente etichettati e spiegati, rendendo più facile per i cuochi domestici seguire la ricetta e capire il ruolo di ogni componente nel piatto.

Figura 5. Un esempio di messa a terra visiva con Florence-2. 

OCR basato sulla regione per i documenti finanziari

L'OCR con elaborazione regionale, che si concentra sull'estrazione del testo da aree specifiche all'interno di un documento, può essere utile quando si tratta di settori come la contabilità. Le aree designate dei documenti finanziari possono essere analizzate per estrarre automaticamente informazioni importanti come i dettagli delle transazioni, i numeri di conto e le date di scadenza. Riducendo la necessità di inserire manualmente i dati, riduce al minimo gli errori e accelera i tempi di elaborazione. Gli istituti finanziari possono utilizzarlo per snellire attività come l'elaborazione delle fatture, la riconciliazione delle ricevute e la compensazione degli assegni, con conseguente accelerazione delle transazioni e miglioramento del servizio clienti. 

Figura 6. Un esempio di estrazione OCR con regione utilizzando Florence-2. 

Segmentazione su base regionale nelle applicazioni industriali

La segmentazione per regioni, che prevede la suddivisione di un'immagine in parti significative per un'analisi mirata e un'ispezione dettagliata, può alimentare applicazioni industriali che migliorano la precisione e l'efficienza di vari processi. Concentrandosi su aree specifiche all'interno di un'immagine, questa tecnologia consente un'ispezione e un'analisi dettagliata di componenti e prodotti. Per quanto riguarda il controllo qualità, può identificare difetti o incongruenze nei materiali, come crepe o disallineamenti, assicurando che solo i prodotti di alta qualità arrivino sul mercato.

Figura 7. Un esempio di segmentazione basata sulle regioni usando Florence-2.

Inoltre, migliora le linee di assemblaggio automatizzate guidando i bracci robotici verso parti specifiche e ottimizzando il posizionamento e l'assemblaggio dei componenti. Allo stesso modo, nella gestione dell'inventario, aiuta a tracciare e monitorare le condizioni e l'ubicazione delle merci, consentendo una logistica più efficiente e una riduzione dei tempi di fermo. In generale, la segmentazione regionale aumenta l'accuratezza e la produttività, consentendo di risparmiare sui costi e di migliorare la qualità dei prodotti in ambito industriale.

Punti di forza

Stiamo iniziando a vedere una tendenza per cui i modelli di intelligenza artificiale diventano più leggeri pur mantenendo prestazioni elevate. Florence-2 segna un importante passo avanti in termini di modelli di linguaggio visivo. È in grado di gestire diversi compiti come il rilevamento di oggetti, la segmentazione, la didascalia delle immagini e il grounding con prestazioni impressionanti a scatto zero. Nonostante le dimensioni ridotte, Florence-2 è efficiente e multifunzionale, il che lo rende estremamente utile in termini di applicazioni in diversi settori. Modelli come Florence-2 offrono sempre più possibilità, ampliando il potenziale delle innovazioni AI.

Scopri di più sull'IA visitando il nostro repository GitHub e unendoti alla nostra comunità. Dai un'occhiata alle nostre pagine dedicate alle soluzioni per scoprire le applicazioni dell'IA nel settore manifatturiero e agricolo. 🚀

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico