Découvre comment tu peux utiliser Google Gemini 2.5 pour des tâches de vision artificielle telles que la détection d'objets, le sous-titrage d'images et la reconnaissance optique de caractères pour les solutions Vision AI.
Les progrès de l'IA vont vite, avec de nouvelles innovations qui font les gros titres presque tous les jours. L'une de ces récentes avancées est Gemini 2.5, le dernier modèle multimodal de Google DeepMind, lancé le 26 mars dernier. Alors que les grands modèles de langage (LLM) traditionnels peuvent apprendre à partir de quantités massives de données pour générer des textes semblables à ceux des humains, Gemini 2.5 va plus loin.
Il est conçu comme un "modèle de pensée" qui peut traiter des images, de l'audio et de la vidéo. Il possède des capacités de raisonnement et de codage améliorées. Il est intéressant de noter qu'il obtient également des résultats exceptionnels en ce qui concerne les tâches de vision par ordinateur, où les machines interprètent et analysent les données visuelles, telles que la détection d'objets, le sous-titrage d'images et la reconnaissance optique de caractères (OCR).
Dans cet article, nous allons parcourir l'un des carnets de notes d'Ultralyticsqui peut t'aider à mettre en pratique les capacités de vision par ordinateur de Gemini 2.5. Nous examinerons également de plus près les principales caractéristiques de Gemini 2.5 et montrerons comment il peut être utilisé pour créer des solutions de vision par ordinateur pour des applications réelles. C'est parti !
La première version de la série de modèles Gemini 2.5 qui vient d'être publiée est une version expérimentale de Gemini 2.5 Pro. Elle est conçue pour traiter des problèmes complexes en réfléchissant à ses réponses avant de donner une réponse. Il utilise des méthodes telles que l'apprentissage par renforcement (où le modèle apprend à partir du retour d'information) et l'incitation à la réflexion en chaîne (une approche étape par étape pour résoudre les problèmes).
L'une de ses principales caractéristiques est son énorme fenêtre contextuelle, qui peut contenir 1 million de tokens (environ un million de mots ou de parties de mots) et qui devrait passer à 2 millions. Cela signifie que le modèle peut prendre en compte beaucoup d'informations à la fois, ce qui permet d'obtenir des résultats plus détaillés et plus précis.
En plus du langage de traitement, Gemini 2.5 peut être utilisé pour les tâches de vision par ordinateur suivantes :
Il existe plusieurs modèles multimodaux disponibles dans l'espace de l'IA aujourd'hui, il est donc important de comprendre comment Gemini 2,5 Pro se compare à eux. D'après les résultats d'analyse comparative partagés par DeepMind de Google, Gemini 2.5 Pro affiche des performances impressionnantes pour toute une série de tâches.
Par exemple, sur un test appelé Humanity's Last Exam, qui simule un examen difficile couvrant de nombreux sujets et testant le raisonnement avancé et les connaissances générales, Gemini 2.5 Pro obtient un score d'environ 18,8 %, surpassant des modèles comme o3-mini d'OpenAI, qui obtient un score d'environ 14 %.
Il obtient également de très bons résultats dans les défis mathématiques et de codage, égalant ou dépassant souvent les performances de modèles tels que OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta et DeepSeek R1, ce qui démontre sa capacité à gérer des tâches complexes et à traiter de grandes quantités de données.
Gemini 2.5 Pro est disponible sur plusieurs plateformes. Tu peux l'expérimenter dans Google AI Studio et y accéder via l'appli Gemini pour les utilisateurs de Gemini Advanced. Dans son annonce de lancement, Google DeepMind a également mentionné que le modèle sera bientôt pris en charge sur Vertex AI. Ces points d'accès permettent aux développeurs d'utiliser facilement Gemini 2.5 Pro pour des applications d'IA du monde réel.
Cependant, si tu veux utiliser l'API Google Gemini et démarrer en quelques minutes sans configuration compliquée et que tu cherches à mieux comprendre ses capacités de vision par ordinateur, tu peux consulter le carnetUltralytics qui présente des tâches telles que la détection d'objets et le sous-titrage d'images à l'aide de Gemini 2.5 Pro. Voyons en détail ce que tu peux attendre de ce cahier.
Pour commencer avec le carnet Ultralytics et utiliser Google Gemini 2.5, tu devras d'abord générer une clé API via Google AI Studio. Cette clé te donne accès à l'API Gemini pour que tu puisses utiliser le modèle.
Une fois que tu as ta clé API, assure-toi que les bibliothèques nécessaires sont installées dans ton environnement. Ultralytics et de la boîte à outils AI de Google. Cette étape est clairement décrite dans le carnet, tu peux donc facilement suivre les instructions pour configurer ton espace de travail.
Une fois tout configuré, tu peux te connecter à l'API de Gemini en entrant ta clé API (comme indiqué ci-dessous), ce qui crée un lien entre ton espace de travail et le modèle. Après cela, tu seras prêt à envoyer des images et des messages textes à Gemini 2.5.
1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")
Essentiellement, tu peux fournir une image et une instruction simple (comme "détecter des objets dans cette image" ou "décrire ce que tu vois") au modèle, et il te renvoie les résultats dont tu as besoin. Ce processus simple permet de commencer à explorer les capacités de vision par ordinateur de Gemini 2.5.
L'un des exemples clés du carnet est la détection d'objets à l'aide de Gemini 2.5 Pro. Dans cet exemple, tu fournis au modèle une image et une simple invite à détecter des objets.
Le modèle traite l'image et renvoie un ensemble de coordonnées et d'étiquettes pour chaque objet qu'il trouve ; ces coordonnées sont données sous forme normalisée. Les fonctions du progicielUltralytics Python sont ensuite utilisées pour convertir ces valeurs normalisées afin qu'elles correspondent aux dimensions réelles de l'image et pour dessiner des boîtes de délimitation claires autour de chaque objet, comme illustré ci-dessous.
Un autre exemple intéressant dans le carnet est le légendage d'images à l'aide de Gemini 2.5 Pro. Dans cet exemple, tu fournis au modèle une image et une invite lui demandant de générer une légende détaillée qui décrit ce qu'il y a dans l'image.
Le modèle analyse ensuite le contenu visuel et renvoie une narration, souvent formatée sous forme de phrases multiples, qui capture à la fois le contenu et le contexte de l'image. Cette fonction est utile pour améliorer l'accessibilité, résumer les informations visuelles et même améliorer la narration créative.
L'OCR est une tâche de vision par ordinateur qui utilise la capacité de Gemini 2.5 Pro à lire du texte dans des images. Dans le carnet, tu peux fournir au modèle une image contenant du texte ainsi qu'une invite à extraire ce texte. Le modèle traite l'image et renvoie à la fois le texte détecté et les coordonnées où se trouve le texte, comme indiqué ci-dessous.
1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png") # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)
Les fonctions du packagePython Ultralytics sont ensuite utilisées pour convertir ces coordonnées normalisées en dimensions réelles de l'image et dessiner des boîtes de délimitation autour des régions de texte. Cette sortie annotée permet de savoir clairement où se trouve le texte, ce qui est utile pour numériser les documents, automatiser la saisie des données et améliorer l'accessibilité.
Maintenant que nous avons vu comment Google Gemini 2.5 Pro peut être utilisé pour diverses tâches de vision par ordinateur, explorons quelques applications du monde réel où ces capacités peuvent être utilisées.
La capacité de détection d'objets de Gemini 2.5 Pro, par exemple, permet d'étiqueter et d'organiser automatiquement de grands ensembles d'images, ce qui accélère les tâches telles que la création d'ensembles de données ou la gestion de contenu. Elle peut également être utilisée pour analyser des images dans des domaines tels que la vente au détail et l'agriculture - par exemple, en détectant des produits sur des étagères ou en identifiant des signes de stress dans des photos d'exploitations agricoles.
Parallèlement, la fonction de légende d'image du modèle peut aider les utilisateurs malvoyants à comprendre le contenu d'une image. Par exemple, si tu as une photo d'une rue animée, le modèle peut produire une légende qui décrit la scène en détail, en mentionnant les types de véhicules, l'activité des piétons et même l'heure de la journée en se basant sur les indices d'éclairage.
En outre, la fonctionnalité OCR de Gemini 2.5 peut être utilisée dans une grande variété d'applications. Par exemple, tu peux numériser des documents imprimés en scannant des pages ou des reçus. Cette capacité est idéale pour automatiser les tâches de saisie de données, traiter les formulaires ou même lire le texte des cartes de visite et de la signalétique.
Dans l'ensemble, Google Gemini 2.5 Pro ouvre les portes à un large éventail d'applications pratiques de l'IA.
Au-delà de la génération et de l'analyse de texte, Google Gemini 2.5 Pro peut être utilisé pour des tâches de vision artificielle telles que la détection d'objets, le sous-titrage d'images et la reconnaissance optique de caractères. Grâce à sa fenêtre contextuelle massive et à ses capacités de raisonnement améliorées, il produit des résultats détaillés et adaptés au contexte qui fonctionnent bien dans les scénarios du monde réel.
Alors que les modèles d'IA continuent d'évoluer, des outils comme Gemini 2.5 Pro facilitent la résolution de problèmes complexes dans tous les secteurs d'activité. Il est probable que nous assisterons à une adoption encore plus large de l'IA, car de plus en plus d'organisations recherchent des solutions flexibles et multimodales capables de gérer un large éventail de tâches, de la compréhension visuelle au traitement du langage.
Fais partie de notre communauté et découvre des projets d'IA de pointe sur notre dépôt GitHub. Vois les applications de l'IA de vision dans l'agriculture et le rôle de l'IA dans la fabrication sur nos pages de solutions. Explore nos plans de licence et construis des solutions de vision par ordinateur dès aujourd'hui !
Commence ton voyage avec le futur de l'apprentissage automatique.