Controllo verde
Link copiato negli appunti

Scopri Google Gemini 2.5 per i compiti di computer vision

Scopri come utilizzare Google Gemini 2.5 per attività di computer vision come il rilevamento di oggetti, la sottotitolazione di immagini e l'OCR per le soluzioni Vision AI.

I progressi dell'intelligenza artificiale si susseguono velocemente e le novità fanno notizia quasi ogni giorno. Una di queste recenti innovazioni è Gemini 2.5, l'ultimo modello multimodale di Google DeepMind, lanciato il 26 marzo. Mentre i tradizionali Large Language Models (LLM) possono imparare da enormi quantità di dati per generare testi simili a quelli umani, Gemini 2.5 va oltre. 

È stato progettato come un "modello di pensiero" in grado di elaborare immagini, audio e video. Ha capacità di ragionamento e di codifica migliorate. È interessante notare che ha prestazioni eccezionali anche per quanto riguarda le attività di computer vision, in cui le macchine interpretano e analizzano i dati visivi, come il rilevamento di oggetti, la didascalia delle immagini e il riconoscimento ottico dei caratteri (OCR).

Figura 1. Un esempio di utilizzo di Gemini 2.5 per comprendere il contenuto di un'immagine.

In questo articolo ti illustreremo uno dei notebook di Ultralyticsche ti aiuterà a toccare con mano le funzionalità di computer vision di Gemini 2.5. Daremo anche un'occhiata più da vicino alle caratteristiche principali di Gemini 2.5 e mostreremo come può essere utilizzato per costruire soluzioni di computer vision per applicazioni reali. Cominciamo!

Panoramica di Gemini 2.5: caratteristiche e funzionalità

La prima versione della serie di modelli Gemini 2.5 appena rilasciata è una versione sperimentale di Gemini 2.5 Pro. È stato progettato per gestire problemi complessi riflettendo sulle sue risposte prima di dare una risposta. Utilizza metodi come l'apprendimento per rinforzo (in cui il modello impara dal feedback) e il prompt a catena (un approccio graduale alla risoluzione dei problemi).

Una delle sue caratteristiche principali è l'enorme finestra contestuale, che può contenere 1 milione di token (circa un milione di parole o parti di parole) e che si prevede possa arrivare a 2 milioni. Ciò significa che il modello è in grado di recepire molte informazioni contemporaneamente, ottenendo risultati più dettagliati e accurati.

Oltre al linguaggio di elaborazione, Gemini 2.5 può essere utilizzato per le seguenti attività di computer vision:

  • Rilevamento dell'oggetto: È il processo di identificazione e localizzazione degli oggetti all'interno di un'immagine. Può essere utilizzato in applicazioni come la sorveglianza o le auto a guida autonoma.
  • Didascalia dell'immagine: Questo compito consiste nel generare un testo descrittivo per un'immagine. Rende i contenuti visivi più accessibili e facili da capire.
  • Riconoscimento ottico dei caratteri: Questa tecnologia converte il testo presente nelle immagini in testo modificabile e leggibile dalla macchina. È utile per digitalizzare i documenti e automatizzare l'inserimento dei dati.

Analisi comparativa e confronto di Google Gemini 2.5 con altri modelli

Esistono diversi modelli multimodali oggi disponibili nel settore dell'intelligenza artificiale, quindi è importante capire come Gemini 2.5 Pro si pone rispetto ad essi. In base ai risultati dei benchmark condivisi da DeepMind di Google, Gemini 2.5 Pro mostra prestazioni impressionanti in una serie di compiti. 

Ad esempio, in un test chiamato Humanity's Last Exam, che simula un esame impegnativo che copre molte materie e mette alla prova il ragionamento avanzato e la conoscenza generale, Gemini 2.5 Pro ha ottenuto un punteggio di circa il 18,8%, superando modelli come o3-mini di OpenAI, che ha ottenuto circa il 14%. 

Figura 2. Una panoramica delle prestazioni del benchmark di Gemini 2.5 Pro.

Si comporta molto bene anche nelle sfide matematiche e di codifica, spesso eguagliando o superando le prestazioni di modelli come OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, dimostrando la sua capacità di gestire compiti complessi ed elaborare grandi quantità di dati.

Come usare Gemini 2.5: come usare l'API Google Gemini

Gemini 2.5 Pro è disponibile su diverse piattaforme. Puoi sperimentarlo in Google AI Studio e accedervi attraverso l'app Gemini per gli utenti di Gemini Advanced. Nel suo annuncio di lancio, Google DeepMind ha anche menzionato che il modello sarà presto supportato da Vertex AI. Questi punti di accesso consentono agli sviluppatori di utilizzare facilmente Gemini 2.5 Pro per le applicazioni di AI del mondo reale. 

Tuttavia, se vuoi utilizzare l'API Google Gemini e iniziare a lavorare in pochi minuti senza complicate configurazioni e vuoi conoscere meglio le sue capacità di computer vision, puoi dare un'occhiata al notebookUltralytics che mostra attività come il rilevamento di oggetti e la didascalia di immagini utilizzando Gemini 2.5 Pro. Vediamo nel dettaglio cosa ti aspetta nel notebook.

Impostazione dell'inferencing con il notebook Google Gemini 2.5

Per iniziare a utilizzare il notebook Ultralytics e Google Gemini 2.5, dovrai innanzitutto generare una chiave API attraverso Google AI Studio. Questa chiave ti dà accesso alle API di Gemini per poter utilizzare il modello.

Una volta ottenuta la chiave API, assicurati che nel tuo ambiente siano installate le librerie necessarie: queste includono i pacchetti di Ultralytics e del toolkit AI di Google. Questa fase è chiaramente descritta nel quaderno, quindi puoi seguire facilmente le istruzioni per configurare il tuo spazio di lavoro.

Una volta configurato il tutto, puoi collegarti all'API di Gemini inserendo la tua chiave API (come mostrato di seguito), che crea un collegamento tra il tuo spazio di lavoro e il modello. Dopodiché sarai pronto a inviare immagini e messaggi di testo a Gemini 2.5.

1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")

In sostanza, puoi fornire al modello un'immagine e una semplice istruzione (come "rileva gli oggetti in questa immagine" o "descrivi ciò che vedi") e il modello ti restituirà i risultati di cui hai bisogno. Questo processo semplice rende facile iniziare a esplorare le capacità di computer vision di Gemini 2.5.

Rilevamento di oggetti con Google Gemini 2.5

Uno degli esempi principali del quaderno è il rilevamento degli oggetti con Gemini 2.5 Pro. In questo esempio, fornisci al modello un'immagine e una semplice richiesta di rilevamento di oggetti. 

Il modello elabora l'immagine e restituisce una serie di coordinate ed etichette per ogni oggetto trovato; queste coordinate sono fornite in forma normalizzata. Le funzioni del pacchettoUltralytics Python vengono poi utilizzate per convertire questi valori normalizzati in modo che corrispondano alle dimensioni reali dell'immagine e per disegnare dei riquadri di delimitazione chiari intorno a ogni oggetto, come mostrato di seguito.

Figura 3. Utilizzo di Google Gemini 2.5 per il rilevamento degli oggetti.

Didascalia delle immagini con Gemini 2.5

Un altro esempio interessante del quaderno è la didascalia delle immagini con Gemini 2.5 Pro. In questo esempio, fornisci al modello un'immagine e una richiesta di generare una didascalia dettagliata che descriva il contenuto dell'immagine. 

Il modello analizza quindi il contenuto visivo e restituisce una narrazione, spesso formattata come frasi multiple, che cattura sia il contenuto che il contesto dell'immagine. Questa funzione è utile per migliorare l'accessibilità, riassumere le informazioni visive e persino migliorare la narrazione creativa.

Migliorare la precisione dell'OCR con i modelli di Google Gemini

Un'attività di computer vision che utilizza la capacità di Gemini 2.5 Pro di leggere il testo nelle immagini è l'OCR. Nel blocco note, puoi fornire al modello un'immagine contenente del testo e una richiesta per estrarre il testo. Il modello elabora l'immagine e restituisce sia il testo rilevato che le coordinate in cui si trova il testo, come mostrato di seguito.

1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png")  # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)

Le funzioni del pacchetto Ultralytics Python vengono poi utilizzate per convertire queste coordinate normalizzate nelle dimensioni reali dell'immagine e per disegnare dei riquadri di delimitazione intorno alle regioni di testo. Questo output annotato rende chiaro dove si trova il testo, il che è utile per digitalizzare i documenti, automatizzare l'inserimento dei dati e migliorare l'accessibilità.

Figura 4. Estrazione di dati testuali in un'immagine con Google Gemini 2.5.

Applicazioni reali di Google Gemini 2.5

Ora che abbiamo visto come Google Gemini 2.5 Pro può essere utilizzato per varie attività di computer vision, esploriamo alcune applicazioni reali in cui queste funzionalità possono essere utilizzate.

La capacità di Gemini 2.5 Pro di rilevare gli oggetti, ad esempio, può aiutare a etichettare e organizzare automaticamente grandi serie di immagini, rendendo molto più veloci attività come la creazione di set di dati o la gestione dei contenuti. Può essere utilizzato anche per analizzare le immagini in settori come la vendita al dettaglio e l'agricoltura, ad esempio per individuare i prodotti sugli scaffali o per identificare i segni di stress delle colture nelle foto delle aziende agricole.

Figura 5. Gemini 2.5 Pro analizza lo stato di salute di una pianta.

Nel frattempo, la funzione di didascalia delle immagini del modello può aiutare gli utenti ipovedenti a capire cosa c'è in un'immagine. Ad esempio, se hai una foto di una strada trafficata, il modello potrebbe produrre una didascalia che descrive la scena in dettaglio, citando i tipi di veicoli, l'attività dei pedoni e persino l'ora del giorno in base agli indizi di illuminazione. 

Inoltre, la funzionalità OCR di Gemini 2.5 può essere utilizzata in diverse applicazioni. Ad esempio, puoi digitalizzare documenti stampati scansionando pagine o ricevute. Questa funzionalità è ideale per automatizzare le attività di inserimento dati, elaborare moduli o leggere il testo di biglietti da visita e insegne. 

Nel complesso, Google Gemini 2.5 Pro apre le porte a un'ampia gamma di applicazioni pratiche di intelligenza artificiale.

Punti di forza

Oltre alla generazione e all'analisi del testo, Google Gemini 2.5 Pro può essere utilizzato per attività di computer vision come il rilevamento di oggetti, la didascalia di immagini e l'OCR. Grazie all'enorme finestra di contesto e alle capacità di ragionamento migliorate, produce risultati dettagliati e consapevoli del contesto che funzionano bene in scenari reali. 

Con la continua evoluzione dei modelli di IA, strumenti come Gemini 2.5 Pro rendono più facile la risoluzione di problemi complessi in tutti i settori. È probabile che vedremo un'adozione ancora più ampia dell'IA, dato che sempre più organizzazioni cercano soluzioni flessibili e multimodali in grado di gestire un'ampia gamma di compiti, dalla comprensione visiva all'elaborazione del linguaggio.

Entra a far parte della nostra comunità e scopri i progetti di IA all'avanguardia sul nostro repository GitHub. Scopri le applicazioni dell'IA di visione in agricoltura e il ruolo dell'IA nella produzione nelle nostre pagine dedicate alle soluzioni. Esplora i nostri piani di licenza e crea soluzioni di visione artificiale oggi stesso!

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico