Vision AI çözümleri için nesne algılama, resim yazısı ekleme ve OCR gibi bilgisayarla görme görevleri için Google Gemini 2.5'i nasıl kullanabileceğinizi görün.
Yapay zeka alanındaki gelişmeler hızla ilerliyor ve neredeyse her gün yeni bir yenilik manşetlere taşınıyor. Google DeepMind'ın 26 Mart'ta lansmanını yaptığı en son multimodal modeli Gemini 2.5 de bu atılımlardan biri. Geleneksel Büyük Dil Modelleri (LLM'ler) insan benzeri metinler oluşturmak için büyük miktarda veriden öğrenebilirken, Gemini 2.5 bunun ötesine geçiyor.
Görüntü, ses ve video işleyebilen bir "düşünme modeli" olarak tasarlanmıştır. Gelişmiş muhakeme ve kodlama becerilerine sahiptir. İlginç bir şekilde, makinelerin görsel verileri yorumladığı ve analiz ettiği nesne algılama, resim altyazısı ve optik karakter tanıma (OCR) gibi bilgisayarla görme görevlerinde de son derece iyi performans gösteriyor.
Bu makalede, Gemini 2.5'in bilgisayarla görme yetenekleriyle pratik yapmanıza yardımcı olabilecek Ultralytics'in not defterlerinden birini inceleyeceğiz. Ayrıca Gemini 2.5'in temel özelliklerine daha yakından bakacağız ve gerçek dünya uygulamaları için bilgisayarla görme çözümleri oluşturmak için nasıl kullanılabileceğini göstereceğiz. Haydi başlayalım!
Gemini 2.5 model serisinin henüz piyasaya sürülen ilk sürümü Gemini 2.5 Pro'nun deneysel bir sürümüdür. Bir yanıt vermeden önce yanıtlarını düşünerek karmaşık sorunları ele almak üzere tasarlanmıştır. Takviyeli öğrenme (modelin geri bildirimden öğrendiği) ve düşünce zinciri yönlendirme (problemleri çözmek için adım adım yaklaşım) gibi yöntemler kullanır.
En önemli özelliklerinden biri, 1 milyon jetonu (kabaca bir milyon kelime veya kelime parçası) tutabilen ve 2 milyona çıkması beklenen devasa bağlam penceresidir. Bu, modelin bir kerede çok fazla bilgi alabileceği ve daha ayrıntılı ve doğru sonuçlara yol açabileceği anlamına gelir.
İşleme dilinin yanı sıra Gemini 2.5 aşağıdaki bilgisayarla görme görevleri için de kullanılabilir:
Günümüzde yapay zeka alanında birçok multimodal model mevcut, bu nedenle Gemini 2.5 Pro'nun bunlarla nasıl karşılaştırıldığını anlamak önemlidir. Google DeepMind tarafından paylaşılan kıyaslama sonuçlarına göre Gemini 2.5 Pro, çeşitli görevlerde etkileyici bir performans sergiliyor.
Örneğin, birçok konuyu kapsayan zorlu bir sınavı simüle eden ve ileri düzey akıl yürütme ve genel bilgiyi test eden Humanity's Last Exam adlı bir testte Gemini 2.5 Pro yaklaşık %18,8 puan alarak OpenAI'nin o3-mini gibi %14 civarında puan alan modellerden daha iyi performans gösterdi.
Ayrıca matematik ve kodlama zorluklarında da çok iyi performans göstererek OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta ve DeepSeek R1 gibi modellerin performansıyla eşleşiyor veya onları aşıyor ve karmaşık görevlerin üstesinden gelme ve büyük miktarda veriyi işleme yeteneğini gösteriyor.
Gemini 2.5 Pro birden fazla platformda kullanılabilir. Google AI Studio'da deneyebilir ve Gemini Advanced kullanıcıları için Gemini uygulaması aracılığıyla erişebilirsiniz. Google DeepMind, lansman duyurusunda modelin yakında Vertex AI'da destekleneceğini de belirtti. Bu erişim noktaları, geliştiricilerin Gemini 2.5 Pro'yu gerçek dünya yapay zeka uygulamaları için kullanmalarını kolaylaştırıyor.
Bununla birlikte, Google Gemini API'sini kullanmak ve karmaşık kurulum olmadan sadece birkaç dakika içinde başlamak istiyorsanız ve bilgisayarla görme yeteneklerini daha iyi anlamak istiyorsanız, Gemini 2.5 Pro kullanarak nesne algılama ve görüntü altyazısı oluşturma gibi görevleri sergileyen Ultralytics not defterine göz atabilirsiniz. Not defterinde nelerle karşılaşabileceğinizi ayrıntılı olarak inceleyelim.
Ultralytics not defterini kullanmaya başlamak ve Google Gemini 2.5'i kullanmak için öncelikle Google AI Studio aracılığıyla bir API anahtarı oluşturmanız gerekir. Bu anahtar, modeli kullanabilmeniz için Gemini API'sine erişmenizi sağlar.
API anahtarınızı aldıktan sonra, ortamınızda gerekli kütüphanelerin yüklü olduğundan emin olun - bunlar Ultralytics ve Google'ın yapay zeka araç seti. Bu adım not defterinde açıkça belirtilmiştir, böylece çalışma alanınızı kurmak için talimatları kolayca takip edebilirsiniz.
Her şey yapılandırıldıktan sonra, çalışma alanınız ile model arasında bir bağlantı oluşturan API anahtarınızı (aşağıda gösterildiği gibi) girerek Gemini API'sine bağlanabilirsiniz. Bundan sonra, Gemini 2.5'e görüntü ve metin istemleri göndermeye hazır olacaksınız.
1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")
Esasen, modele bir görüntü ve basit bir talimat ("bu görüntüdeki nesneleri tespit et" veya "ne gördüğünü tarif et" gibi) verebilirsiniz ve o da ihtiyacınız olan sonuçları döndürür. Bu basit süreç, Gemini 2.5'in bilgisayarla görme yeteneklerini keşfetmeye başlamayı kolaylaştırır.
Not defterindeki önemli örneklerden biri Gemini 2.5 Pro kullanarak nesne tespitidir. Bu örnekte, modele bir görüntü ve nesneleri tespit etmesi için basit bir istem sağlıyorsunuz.
Model görüntüyü işler ve bulduğu her nesne için bir dizi koordinat ve etiket döndürür; bu koordinatlar normalleştirilmiş biçimde verilir. Ultralytics Python paketindeki işlevler daha sonra bu normalleştirilmiş değerleri görüntünün gerçek boyutlarıyla eşleşecek şekilde dönüştürmek ve aşağıda gösterildiği gibi her nesnenin etrafına net sınırlayıcı kutular çizmek için kullanılır.
Not defterindeki bir diğer ilginç örnek ise Gemini 2.5 Pro kullanarak resim altyazısı oluşturma. Bu örnekte, modele bir görüntü ve görüntüde ne olduğunu açıklayan ayrıntılı bir başlık oluşturmasını isteyen bir istem veriyorsunuz.
Model daha sonra görsel içeriği analiz eder ve görüntünün hem içeriğini hem de bağlamını yakalayan, genellikle birden fazla cümle olarak biçimlendirilmiş bir anlatı döndürür. Bu özellik erişilebilirliği iyileştirmek, görsel bilgileri özetlemek ve hatta yaratıcı hikaye anlatımını geliştirmek için kullanışlıdır.
Gemini 2.5 Pro'nun görüntülerdeki metinleri okuma yeteneğini kullanan bir bilgisayarla görme görevi OCR'dir. Not defterinde, modele metin içeren bir görüntü ile birlikte bu metni ayıklamak için bir istem sağlayabilirsiniz. Model görüntüyü işler ve aşağıda gösterildiği gibi hem algılanan metni hem de metnin bulunduğu koordinatları döndürür.
1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png") # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)
Ultralytics Python paketindeki işlevler daha sonra bu normalleştirilmiş koordinatları görüntünün gerçek boyutlarına dönüştürmek ve metin bölgelerinin etrafına sınırlayıcı kutular çizmek için kullanılır. Bu açıklamalı çıktı, belgelerin dijitalleştirilmesi, veri girişinin otomatikleştirilmesi ve erişilebilirliğin iyileştirilmesi için yararlı olan metnin nerede bulunduğunu netleştirir.
Google Gemini 2.5 Pro'nun çeşitli bilgisayarla görme görevleri için nasıl kullanılabileceğinden bahsettiğimize göre, şimdi bu yeteneklerin kullanılabileceği bazı gerçek dünya uygulamalarını inceleyelim.
Örneğin Gemini 2.5 Pro'nun nesne algılama özelliği, büyük görüntü kümelerinin otomatik olarak etiketlenmesine ve düzenlenmesine yardımcı olarak veri kümesi oluşturma veya içerik yönetimi gibi görevleri çok daha hızlı hale getirebilir. Ayrıca perakende ve tarım gibi alanlardaki görüntüleri analiz etmek için de kullanılabilir - örneğin, raflardaki ürünleri tespit etmek veya çiftlik fotoğraflarında mahsul stresi belirtilerini tanımlamak.
Bu arada, modelin görüntü altyazısı özelliği, görme engelli kullanıcıların bir görüntüde ne olduğunu anlamalarına yardımcı olabilir. Örneğin, elinizde işlek bir caddenin fotoğrafı varsa, model sahneyi ayrıntılı olarak tanımlayan, araç türlerinden, yayaların hareketliliğinden ve hatta aydınlatma ipuçlarına dayalı olarak günün saatinden bahseden bir başlık üretebilir.
Buna ek olarak, Gemini 2.5'in OCR işlevi çeşitli uygulamalarda kullanılabilir. Örneğin, sayfaları veya makbuzları tarayarak basılı belgeleri dijitalleştirebilirsiniz. Bu özellik, veri girişi görevlerini otomatikleştirmek, formları işlemek ve hatta kartvizitlerden ve tabelalardan metin okumak için idealdir.
Genel olarak, Google Gemini 2.5 Pro çok çeşitli pratik yapay zeka uygulamalarının kapılarını açıyor.
Metin oluşturma ve analiz etmenin ötesine geçen Google Gemini 2.5 Pro, nesne algılama, resim altyazısı ekleme ve OCR gibi bilgisayarla görme görevleri için kullanılabilir. Devasa bağlam penceresi ve gelişmiş muhakeme yetenekleriyle, gerçek dünya senaryolarında iyi çalışan ayrıntılı, bağlama duyarlı sonuçlar üretir.
Yapay zeka modelleri gelişmeye devam ettikçe, Gemini 2.5 Pro gibi araçlar sektörlerdeki karmaşık sorunları çözmeyi kolaylaştırıyor. Daha fazla kuruluş, görsel anlamadan dil işlemeye kadar çok çeşitli görevleri yerine getirebilecek esnek, çok modlu çözümler aradıkça, yapay zekanın daha da geniş bir şekilde benimsendiğini görmemiz muhtemeldir.
Topluluğumuzun bir parçası olun ve GitHub depomuzdaki en yeni yapay zeka projeleri hakkında bilgi edinin. Çözüm sayfalarımızda tarımda Gör me Yapay Z ekası uygulamalarını ve üretimde yapay zekanın rolünü görün. Lisanslama planlarımızı keşfedin ve bugün bilgisayarla görme çözümleri oluşturun!
Makine öğreniminin geleceği ile yolculuğunuza başlayın