AI'da temel kavramları keşfedin. Ultralytics ve YOLO kullanarak doğal dili görsel verilere bağlayarak açık sözlük algılamayı öğrenin.
Topraklama, yapay zeka sisteminin soyut kavramları (genellikle doğal dilden türetilen) fiziksel dünyadaki görsel veriler veya duyusal girdiler gibi belirli, somut temsillerle ilişkilendirme yeteneğini ifade eder. Bilgisayar görüşü bağlamında bu, bir modelin sadece metni işlemekle kalmayıp, "köpeğini gezdiren bir kişi" gibi bir cümleyi ayrıştırarak bu varlıkları bir görüntü veya video akışında tam olarak konumlandırabileceği anlamına gelir. Bu süreç, sembolik akıl yürütme ile piksel düzeyinde algı arasındaki boşluğu doldurarak, bilişsel bilimlerdeki temel sembol temellendirme sorununu ele alır. Dilbilimsel simgeleri görsel özelliklerle ilişkilendirerek, temellendirme modern çok modlu yapay zekanın temel taşı olarak işlev görür ve makinelerin dinamik insan ortamlarıyla daha sezgisel bir şekilde etkileşime girmesini sağlar.
Teknik düzeyde, temellendirme, farklı modalitelerden gelen verileri paylaşılan yüksek boyutlu bir vektör uzayında hizalamayı içerir. Genellikle doğal dil işleme (NLP) kullanılan Transformer çerçevesine dayanan gelişmiş mimariler, hem metin açıklamaları hem de görsel girdiler için gömme olarak bilinen sayısal temsiller üretir. Eğitim sırasında model, bir metin komutunun (örneğin, "mavi sırt çantası") gömülmesi ile karşılık gelen görsel bölgenin gömülmesi arasındaki mesafeyi en aza indirgemeyi öğrenir.
Bu uyum, Açık Kelime Tespiti'ne olanak tanır. Modelin sabit bir kategori kümesiyle sınırlı olduğu geleneksel denetimli öğrenmeden farklı olarak, temellendirme sıfır atış öğrenmeyi mümkün kılar. Temellendirilmiş bir model, eğitim sırasında açıkça görmediği nesneleri, bunları tanımlayan dili anladığı sürece tanımlayabilir. Bu esneklik, PyTorch gibi derin öğrenme çerçeveleri tarafından desteklenir. PyTorchgibi derin öğrenme çerçeveleri tarafından desteklenir. Bu çerçeveler, bu multimodal hizalamalar için gerekli olan karmaşık matris işlemlerini kolaylaştırır.
Topraklama teknolojisi, sistemlerin kullanıcı niyetini yorumlamasına ve yapılandırılmamış ortamlarda etkili bir şekilde gezinmesine olanak tanıyarak endüstrileri yeniden şekillendiriyor .
Ultralytics , YOLO gibi özel mimariler aracılığıyla temel oluşturmayı destekler. Standart modeller belirli veri kümeleri üzerinde eğitim gerektirirken, YOLO kullanıcıların metin komutlarını kullanarak anında özel algılama sınıfları tanımlamasına olanak tanır. Bu, yeniden eğitim gerektirmeden doğal dil girdisini görüntüye etkili bir şekilde "temel" oluşturur.
Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics özel metin açıklamalarına dayalı detect için paket
:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Topraklamanın yararını tam olarak anlamak için, onu benzer bilgisayar görme görevlerinden ayırmak faydalıdır:
Gelişmelere rağmen, topraklama hesaplama açısından yoğun olmaya devam ediyor. Büyük dil modellerini görme kodlayıcılarıyla uyumlu hale getirmek önemli miktarda GPU ve verimli bellek yönetimi gerektirir. Bu zorluk genellikle NVIDIA gibi donanım yenilikçileri tarafından ele alınmaktadır. NVIDIA. Ayrıca modeller, dilbilimsel belirsizliklerle karşılaşabilir ve "bat" kelimesinin spor aleti mi yoksa hayvan mı olduğunu belirlemek için büyük bağlam pencereleri gerektirir. Bu tür zorluklar, dil ve görme modellerinin
Gelecekteki gelişmeler, doğal olarak çok modlu olan birleşik temel modellere doğru ilerliyor. Ultralytics gibi araçlar, geliştiricilerin bu görevler için gerekli olan karmaşık veri kümelerini yönetmelerine yardımcı olmak için gelişiyor ve veri açıklama ve model dağıtımı için kolaylaştırılmış iş akışları sunuyor. Bu teknolojiler olgunlaştıkça, temel bilgilerin uç cihazlara sorunsuz bir şekilde entegre edilmesini ve daha akıllı, daha duyarlı AI uygulamalarının ortaya çıkmasını bekleyebiliriz.