Çok Modlu Öğrenme
AI'da çok modlu öğrenmeyi keşfedin. Ultralytics ve YOLO gibi sağlam modeller için metin, görüntü ve sesi nasıl entegre ettiğini öğrenin. Bugün daha fazlasını keşfedin!
Çok modlu öğrenme,
yapay zeka (AI) alanında, algoritmaları
birden fazla farklı veri türü veya
"modalite"den gelen bilgileri işlemek, anlamak ve ilişkilendirmek üzere eğiten sofistike bir yaklaşımdır. Çeviri için metin veya görüntü tanımaiçin pikseller gibi tek bir girdi türüne odaklanan geleneksel sistemlerin aksine,
çok modlu öğrenme, görsel veriler, sesli kayıtlar, metin
açıklamaları ve sensör okumaları gibi çeşitli duyusal girdileri entegre ederek insan bilişini taklit eder. Bu bütünsel yaklaşım,
makine öğrenimi (ML) modellerinin dünyayı daha derin ve bağlamsal olarak anlamasını sağlayarak
daha sağlam ve çok yönlü tahminler yapmasını sağlar.
Çok Modlu Öğrenme Nasıl Çalışır
Çok modlu öğrenmenin temel zorluğu, farklı veri türlerini karşılaştırılabilecek ve birleştirilebilecek ortak bir matematiksel alana dönüştürmektir.
Bu süreç genellikle üç ana aşamadan oluşur: kodlama, hizalama ve birleştirme.
-
Özellik Çıkarma:
Özel sinir ağları her bir modaliteyi bağımsız olarak işler. Örneğin,
evrişimli sinir ağları (CNN'ler)
veya Görsel Dönüştürücüler (ViT'ler)
görüntülerden özellikleri çıkarabilirken,
Tekrarlayan Sinir Ağları (RNN'ler) veya
Dönüştürücüler metni işler.
-
Gömme Hizalama: Model
bu çeşitli özellikleri paylaşılan yüksek boyutlu vektörlere eşlemeyi öğrenir. Bu paylaşılan alanda,
"kedi" kelimesinin vektörü ile bir kedi resminin vektörü birbirine yaklaştırılır. OpenAI'nin CLIP gibi makalelerle popüler hale gelen
karşılaştırmalı öğrenme gibi teknikler
burada çok önemlidir.
-
Veri Birleştirme: Son olarak, bilgiler
bir görevi gerçekleştirmek için birleştirilir. Birleştirme erken (ham verilerin birleştirilmesi), geç (nihai tahminlerin birleştirilmesi) veya
her bir modalitenin önemini dinamik olarak
değerlendirmek için dikkat mekanizmasını kullanan
ara hibrit yöntemler aracılığıyla gerçekleştirilebilir.
Gerçek Dünya Uygulamaları
Çok modlu öğrenme, günümüzün en etkileyici yapay zeka atılımlarının çoğunun arkasındaki itici güçtür ve karmaşık sorunları çözmek için farklı veri siloları arasındaki boşluğu doldurur.
.
-
Görsel Soru Yanıtlama (VQA):
Bu uygulamada, sistem bir görüntüyü analiz etmeli ve bununla ilgili doğal dilde bir soruya yanıt vermelidir, örneğin
"Trafik ışığı hangi renkte?". Bu, modelin metnin anlamını anlamasını ve
bilgisayar görüşünü kullanarak ilgili görsel öğeleri uzamsal olarak konumlandırmasını gerektirir.
.
-
Otonom Araçlar:
Otonom araçlar, güvenli bir şekilde seyir etmek için LiDAR nokta bulutları, kamera video görüntüleri ve
radardan gelen verileri birleştiren sensör füzyonuna büyük ölçüde güvenmektedir. Bu çoklu modlu girdi, bir sensör arızalandığında (örneğin, güneş parlaması nedeniyle kamera kör olduğunda
), diğer sensörlerin
yol güvenliğini sağlayabilmesini garanti eder.
-
Sağlık Teşhisi: Sağlık hizmetlerinde yapay zeka,
tıbbi görüntü analizlerini (MRG veya
X-ışınları gibi) yapılandırılmamış metin hasta geçmişi ve genetik verilerle birlikte analiz ederek çok modlu öğrenmeyi kullanır. Bu kapsamlı bakış açısı, doktorların
daha doğru teşhisler koymasına yardımcı olur. Bu konu,
Nature Digital Medicine dergilerinde sıklıkla tartışılan bir konudur.
-
Üretken AI: Metin komutlarından
görüntüler oluşturan araçlar, örneğin
Stable Diffusion, tamamen modelin
dilsel açıklamalar ile görsel dokular arasındaki ilişkiyi anlama yeteneğine dayanır.
Ultralytics ile Çok Modlu Nesne Algılama
Standart nesne algılayıcıları önceden tanımlanmış sınıflara dayanırken,
YOLO gibi çok modlu yaklaşımlar, kullanıcıların
açık sözcük dağarcığı metin komutlarını kullanarak detect olanak tanır. Bu,
Ultralytics metinsel kavramları görsel özelliklerle ilişkilendirmenin gücünü göstermektedir.
Aşağıdaki Python parçacığı, önceden eğitilmiş YOLO modelini kullanarak özel metin girdilerine dayalı detect gösterir.
metin girdileri.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Anahtar Terimlerin Farklılaştırılması
Modern YZ'nin manzarasında gezinmek için, 'Çok Modlu Öğrenme'yi ilgili kavramlardan ayırmak yararlı olacaktır:
-
Çok Modlu Model:
"Çok Modlu Öğrenme", metodoloji ve çalışma alanını ifade eder. "Çok Modlu
Model" ( GPT-4 veya Google Gemini gibi), bu eğitim sürecinin sonucunda ortaya çıkan belirli bir
artefakt veya yazılım ürünüdür.
-
Tek modlu AI: Geleneksel
Bilgisayar Görme genellikle tek modludur ve yalnızca görsel verilere odaklanır.
Ultralytics gibi bir model, nesneleri algılamak için en gelişmiş CV aracı olsa da,
daha büyük bir çok modlu boru hattının parçası olmadığı sürece, genellikle yalnızca görsel girdiler üzerinde çalışır.
-
Büyük Dil Modelleri (LLM'ler):
Geleneksel LLM'ler tek modludur ve yalnızca metin üzerinde eğitilir. Bununla birlikte, sektör "Büyük Çok Modlu Taşımacılığa" doğru kaymaktadır.
Modeller" (LMM'ler) gibi çerçeveler tarafından desteklenen bir eğilim olan görüntüleri ve metinleri yerel olarak işleyebilen
PyTorch ve TensorFlow.
Geleceğe Bakış
Çok modlu öğrenmenin gidişatı, aşağıdaki özelliklere sahip sistemlere işaret etmektedir
Yapay Genel Zeka (AGI)
özellikleri. Bu modeller, dili görsel ve fiziksel gerçeklikle başarılı bir şekilde temellendirerek
gerçek muhakemeye doğru istatistiksel korelasyon. Gibi kurumların araştırmaları
MIT CSAIL ve
Stanford Vakıf Modelleri Araştırma Merkezi, Türkiye'deki vakıf modellerini geliştirmeye devam ediyor.
Makinelerin karmaşık, çok duyulu ortamları nasıl algıladığı ve bunlarla nasıl etkileşime girdiğinin sınırları.
Ultralytics olarak, bu gelişmeleri Ultralytics entegre ederek, kullanıcıların verileri yönetmelerine, modelleri eğitmelerine ve
YOLO26'nın hızından açık sözlük algılamanın çok yönlülüğüne kadar mevcut tüm yöntemlerden yararlanarak çözümler
uygulamalarına olanak tanıyoruz.
Ul Ultralytics , kullanıcıların verileri yönetmelerine, modelleri eğitmelerine ve