Görme ve dili birbirine bağlayan CLIP (Kontrastif Dil-Görüntü Ön Eğitimi) teknolojisini keşfedin. Bu teknolojinin sıfır atış öğrenmeyi nasıl mümkün kıldığını ve Ultralytics nasıl güçlendirdiğini öğrenin.
CLIP (Contrastive Language-Image Pre-training), görsel veriler ile doğal dil arasındaki boşluğu dolduran, OpenAI tarafından geliştirilen devrim niteliğinde bir sinir ağı mimarisidir. Sabit bir kategori kümesi için yoğun emek gerektiren veri etiketlemeyi gerektiren geleneksel bilgisayar görme (CV) sistemlerinden farklı olarak, CLIP internetten toplanan milyonlarca görüntü-metin çifti üzerinde eğitim yaparak görüntüleri anlamayı öğrenir . Bu yaklaşım, modelin sıfır atış öğrenme gerçekleştirebilmesini sağlar, yani eğitim sırasında açıkça görmediği nesneleri, kavramları veya stilleri, sadece metin açıklamasını okuyarak tanımlayabilir. Görsel ve dilbilimsel bilgileri ortak bir özellik alanına eşleyerek, CLIP, kapsamlı görevlere özgü ince ayar gerektirmeden çok çeşitli alt görevler için güçlü bir temel model görevi görür.
CLIP'in temel mekanizması iki paralel kodlayıcıdan oluşur: genellikle Vision Transformer (ViT) veya ResNet tabanlı bir görüntü kodlayıcı ve modern büyük dil modellerinde (LLM) kullanılanlara benzer bir metin Transformer. Karşılaştırmalı öğrenme olarak bilinen bir süreç aracılığıyla, sistem bir grup içinde hangi metin parçacığının hangi görüntüyle eşleştiğini tahmin etmek üzere eğitilir. Bu, bir görüntünün metinle eşleştirilmesinde
Eğitim sırasında model, parametrelerini optimize ederek eşleşen görüntü-metin çiftlerinin vektör gömülerini birbirine yaklaştırırken eşleşmeyen çiftleri birbirinden uzaklaştırır. Bu, "golden retriever" görüntüsünün matematiksel temsilinin "köpek fotoğrafı" metin gömüsüne uzamsal olarak yakın olduğu çok modlu bir latent uzay oluşturur. Bu vektörler arasındaki kosinüs benzerliğini hesaplayarak model, bir görüntünün doğal dil komutuna ne kadar iyi karşılık geldiğini ölçebilir ve esnek görüntü sınıflandırma ve geri getirme işlemlerini mümkün kılar.
Görme ve dili birbirine bağlama yeteneği, CLIP'i modern yapay zeka uygulamalarında temel bir teknoloji haline getirmiştir:
Standart nesne algılayıcılar eğitim sınıflarıyla sınırlıyken, CLIP tabanlı özelliklerin kullanılması
açık sözlük algılama imkanı sağlar. Aşağıdaki Python kod, nasıl kullanılacağını gösterir
ultralytics özel metin istemleri kullanarak detect için paket:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")
# Display the results
results[0].show()
CLIP'in özel faydasını anlamak için onu diğer yaygın AI paradigmalarından ayırmak yararlıdır: