Hier erfährst du, wie du Google Gemini 2.5 für Bildverarbeitungsaufgaben wie Objekterkennung, Bildbeschriftung und OCR für Vision AI-Lösungen einsetzen kannst.
Der Fortschritt in der KI schreitet schnell voran, und fast täglich machen neue Innovationen Schlagzeilen. Einer dieser Durchbrüche ist Gemini 2.5, das neueste multimodale Modell von Google DeepMind, das am 26. März vorgestellt wurde. Während herkömmliche Large Language Models (LLMs) aus riesigen Datenmengen lernen können, um menschenähnlichen Text zu erzeugen, geht Gemini 2.5 darüber hinaus.
Es ist als "Denkmodell" konzipiert, das Bilder, Audio und Video verarbeiten kann. Es verfügt über verbesserte Denk- und Codierfähigkeiten. Interessanterweise schneidet er auch bei Computer-Vision-Aufgaben, bei denen Maschinen visuelle Daten interpretieren und analysieren, außergewöhnlich gut ab, z. B. bei der Erkennung von Objekten, der Beschriftung von Bildern und der optischen Zeichenerkennung (OCR).
In diesem Artikel gehen wir durch eines der Ultralytics, mit denen du die Computer Vision-Funktionen von Gemini 2.5 kennenlernen kannst. Außerdem werfen wir einen genaueren Blick auf die wichtigsten Funktionen von Gemini 2.5 und zeigen dir, wie du damit Bildverarbeitungslösungen für reale Anwendungen erstellen kannst. Los geht's!
Die erste Version der Gemini 2.5 Modellreihe, die gerade veröffentlicht wurde, ist eine experimentelle Version von Gemini 2.5 Pro. Es wurde entwickelt, um komplexe Probleme zu lösen, indem es seine Antworten durchdenkt, bevor es eine Antwort gibt. Es nutzt Methoden wie Reinforcement Learning (das Modell lernt aus Rückmeldungen) und Chain-of-Thought Prompting (ein schrittweiser Ansatz zur Problemlösung).
Eines der wichtigsten Merkmale ist das riesige Kontextfenster, das 1 Million Token (etwa eine Million Wörter oder Wortteile) aufnehmen kann und voraussichtlich auf 2 Millionen anwachsen wird. Das bedeutet, dass das Modell viele Informationen auf einmal aufnehmen kann, was zu detaillierteren und genaueren Ergebnissen führt.
Zusätzlich zur Sprachverarbeitung kann Gemini 2.5 für die folgenden Computer Vision Aufgaben verwendet werden:
Auf dem Gebiet der KI gibt es heute mehrere multimodale Modelle. Deshalb ist es wichtig zu wissen, wie Gemini 2.5 Pro im Vergleich zu ihnen abschneidet. Auf der Grundlage von Benchmarking-Ergebnissen, die von Google DeepMind veröffentlicht wurden, zeigt Gemini 2.5 Pro eine beeindruckende Leistung bei einer Reihe von Aufgaben.
Bei einem Test namens "Humanity's Last Exam", der eine anspruchsvolle Prüfung simuliert, die viele Fächer abdeckt und fortgeschrittenes logisches Denken und Allgemeinwissen testet, erzielt Gemini 2.5 Pro etwa 18,8 % und übertrifft damit Modelle wie o3-mini von OpenAI, das etwa 14 % erreicht.
Auch bei Mathe- und Codieraufgaben schneidet er sehr gut ab und erreicht oder übertrifft oft die Leistung von Modellen wie OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta und DeepSeek R1, was seine Fähigkeit unter Beweis stellt, komplexe Aufgaben zu bewältigen und große Datenmengen zu verarbeiten.
Gemini 2.5 Pro ist auf mehreren Plattformen verfügbar. Du kannst damit in Google AI Studio experimentieren und über die Gemini-App für Gemini Advanced-Nutzer darauf zugreifen. In seiner Ankündigung zur Markteinführung erwähnte Google DeepMind außerdem, dass das Modell bald auch von Vertex AI unterstützt wird. Diese Zugangsmöglichkeiten machen es Entwicklern leicht, Gemini 2.5 Pro für reale KI-Anwendungen zu nutzen.
Wenn du jedoch die Google Gemini API nutzen und in wenigen Minuten ohne kompliziertes Setup loslegen möchtest und ein besseres Verständnis für die Fähigkeiten der Computer Vision gewinnen willst, kannst du dir das Ultralytics Notebook ansehen, das Aufgaben wie Objekterkennung und Bildbeschriftung mit Gemini 2.5 Pro vorstellt. Gehen wir im Detail durch, was dich im Notebook erwartet.
Um mit dem Ultralytics zu beginnen und Google Gemini 2.5 zu nutzen, musst du zunächst einen API-Schlüssel über Google AI Studio generieren. Mit diesem Schlüssel erhältst du Zugriff auf die Gemini-API, damit du das Modell nutzen kannst.
Sobald du deinen API-Schlüssel hast, stellst du sicher, dass in deiner Umgebung die erforderlichen Bibliotheken installiert sind - dazu gehören Pakete von Ultralytics und das KI-Toolkit von Google. Dieser Schritt ist im Notizbuch klar umrissen, so dass du den Anweisungen zum Einrichten deines Arbeitsbereichs leicht folgen kannst.
Wenn alles konfiguriert ist, kannst du dich mit der Gemini-API verbinden, indem du deinen API-Schlüssel eingibst (siehe unten), wodurch eine Verbindung zwischen deinem Arbeitsbereich und dem Modell hergestellt wird. Danach bist du bereit, Bilder und Textaufforderungen an Gemini 2.5 zu senden.
1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")
Im Wesentlichen kannst du dem Modell ein Bild und eine einfache Anweisung (wie "Erkenne Objekte in diesem Bild" oder "Beschreibe, was du siehst") geben, und es liefert dir die gewünschten Ergebnisse. Dieser einfache Prozess macht es dir leicht, die Fähigkeiten von Gemini 2.5 im Bereich Computer Vision zu erkunden.
Eines der wichtigsten Beispiele im Notizbuch ist die Objekterkennung mit Gemini 2.5 Pro. In diesem Beispiel gibst du dem Modell ein Bild und eine einfache Aufforderung, Objekte zu erkennen.
Das Modell verarbeitet das Bild und gibt für jedes gefundene Objekt eine Reihe von Koordinaten und Beschriftungen zurück; diese Koordinaten werden in normalisierter Form angegeben. Diese Koordinaten werden in normalisierter Form angegeben. Mit Funktionen aus dem Ultralytics Python werden diese normalisierten Werte dann in die tatsächlichen Abmessungen des Bildes umgewandelt und klare Begrenzungsrahmen um jedes Objekt gezeichnet, wie unten gezeigt.
Ein weiteres interessantes Beispiel im Notizbuch ist die Bildbeschriftung mit Gemini 2.5 Pro. In diesem Beispiel gibst du dem Modell ein Bild und eine Aufforderung, eine detaillierte Beschriftung zu erstellen, die den Inhalt des Bildes beschreibt.
Das Modell analysiert dann den visuellen Inhalt und gibt eine Erzählung zurück, die oft in mehreren Sätzen formatiert ist und sowohl den Inhalt als auch den Kontext des Bildes erfasst. Diese Funktion ist nützlich, um die Zugänglichkeit zu verbessern, visuelle Informationen zusammenzufassen und sogar das kreative Geschichtenerzählen zu verbessern.
Eine Bildverarbeitungsaufgabe, die die Fähigkeit von Gemini 2.5 Pro nutzt, Text in Bildern zu lesen, ist OCR. Im Notizbuch kannst du dem Modell ein Bild mit Text und einer Aufforderung zum Extrahieren des Textes übergeben. Das Modell verarbeitet das Bild und gibt sowohl den erkannten Text als auch die Koordinaten, an denen sich der Text befindet, zurück (siehe unten).
1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png") # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)
Funktionen aus dem Ultralytics Python werden dann verwendet, um diese normalisierten Koordinaten in die tatsächlichen Abmessungen des Bildes umzuwandeln und Begrenzungsrahmen um die Textbereiche zu zeichnen. Diese kommentierte Ausgabe macht deutlich, wo sich der Text befindet, was für die Digitalisierung von Dokumenten, die Automatisierung der Dateneingabe und die Verbesserung der Zugänglichkeit nützlich ist.
Nachdem wir uns nun angeschaut haben, wie Google Gemini 2.5 Pro für verschiedene Computer-Vision-Aufgaben eingesetzt werden kann, wollen wir nun einige reale Anwendungen erkunden, bei denen diese Fähigkeiten genutzt werden können.
Die Objekterkennungsfunktion von Gemini 2.5 Pro kann zum Beispiel dabei helfen, große Mengen von Bildern automatisch zu beschriften und zu organisieren, sodass Aufgaben wie die Erstellung von Datensätzen oder die Verwaltung von Inhalten viel schneller erledigt werden können. Auch in Bereichen wie dem Einzelhandel und der Landwirtschaft kann Gemini 2.5 Pro für die Analyse von Bildern eingesetzt werden, z. B. um Produkte in Regalen zu erkennen oder Anzeichen von Erntestress auf Fotos von Bauernhöfen zu identifizieren.
Die Bildbeschriftungsfunktion des Modells kann sehbehinderten Nutzern helfen, zu verstehen, was auf einem Bild zu sehen ist. Wenn du z. B. ein Foto von einer belebten Straße hast, kann das Modell eine Bildunterschrift erstellen, die die Szene detailliert beschreibt und die Art der Fahrzeuge, die Aktivität der Fußgänger und sogar die Tageszeit anhand der Lichtverhältnisse angibt.
Darüber hinaus kann die OCR-Funktion von Gemini 2.5 in einer Vielzahl von Anwendungen genutzt werden. Du kannst zum Beispiel gedruckte Dokumente digitalisieren, indem du Seiten oder Belege scannst. Diese Funktion ist ideal, um die Dateneingabe zu automatisieren, Formulare zu bearbeiten oder sogar Text von Visitenkarten und Schildern zu lesen.
Insgesamt öffnet Google Gemini 2.5 Pro die Türen zu einer Vielzahl von praktischen KI-Anwendungen.
Google Gemini 2.5 Pro geht über die Erstellung und Analyse von Text hinaus und kann für Computer-Vision-Aufgaben wie Objekterkennung, Bildbeschriftung und OCR verwendet werden. Mit seinem riesigen Kontextfenster und den erweiterten Argumentationsfähigkeiten liefert es detaillierte, kontextbezogene Ergebnisse, die in realen Szenarien gut funktionieren.
Mit der Weiterentwicklung von KI-Modellen erleichtern Tools wie Gemini 2.5 Pro die Lösung komplexer Probleme in verschiedenen Branchen. Es ist wahrscheinlich, dass wir eine noch breitere Akzeptanz von KI erleben werden, da immer mehr Unternehmen nach flexiblen, multimodalen Lösungen suchen, die eine breite Palette von Aufgaben bewältigen können, vom visuellen Verständnis bis zur Sprachverarbeitung.
Werde Teil unserer Community und erfahre mehr über innovative KI-Projekte in unserem GitHub-Repository. Sieh dir die Anwendungen von Vision AI in der Landwirtschaft und die Rolle der KI in der Fertigung auf unseren Lösungsseiten an. Informiere dich über unsere Lizenzierungspläne und baue noch heute Computer Vision Lösungen!
Beginne deine Reise in die Zukunft des maschinellen Lernens