Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Çok Modlu Öğrenme

AI'da çok modlu öğrenmeyi keşfedin. Ultralytics ve YOLO gibi sağlam modeller için metin, görüntü ve sesi nasıl entegre ettiğini öğrenin. Bugün daha fazlasını keşfedin!

Çok modlu öğrenme, yapay zeka (AI) alanında, algoritmaları birden fazla farklı veri türü veya "modalite"den gelen bilgileri işlemek, anlamak ve ilişkilendirmek üzere eğiten sofistike bir yaklaşımdır. Çeviri için metin veya görüntü tanımaiçin pikseller gibi tek bir girdi türüne odaklanan geleneksel sistemlerin aksine, çok modlu öğrenme, görsel veriler, sesli kayıtlar, metin açıklamaları ve sensör okumaları gibi çeşitli duyusal girdileri entegre ederek insan bilişini taklit eder. Bu bütünsel yaklaşım, makine öğrenimi (ML) modellerinin dünyayı daha derin ve bağlamsal olarak anlamasını sağlayarak daha sağlam ve çok yönlü tahminler yapmasını sağlar.

Çok Modlu Öğrenme Nasıl Çalışır

Çok modlu öğrenmenin temel zorluğu, farklı veri türlerini karşılaştırılabilecek ve birleştirilebilecek ortak bir matematiksel alana dönüştürmektir. Bu süreç genellikle üç ana aşamadan oluşur: kodlama, hizalama ve birleştirme.

  1. Özellik Çıkarma: Özel sinir ağları her bir modaliteyi bağımsız olarak işler. Örneğin, evrişimli sinir ağları (CNN'ler) veya Görsel Dönüştürücüler (ViT'ler) görüntülerden özellikleri çıkarabilirken, Tekrarlayan Sinir Ağları (RNN'ler) veya Dönüştürücüler metni işler.
  2. Gömme Hizalama: Model bu çeşitli özellikleri paylaşılan yüksek boyutlu vektörlere eşlemeyi öğrenir. Bu paylaşılan alanda, "kedi" kelimesinin vektörü ile bir kedi resminin vektörü birbirine yaklaştırılır. OpenAI'nin CLIP gibi makalelerle popüler hale gelen karşılaştırmalı öğrenme gibi teknikler burada çok önemlidir.
  3. Veri Birleştirme: Son olarak, bilgiler bir görevi gerçekleştirmek için birleştirilir. Birleştirme erken (ham verilerin birleştirilmesi), geç (nihai tahminlerin birleştirilmesi) veya her bir modalitenin önemini dinamik olarak değerlendirmek için dikkat mekanizmasını kullanan ara hibrit yöntemler aracılığıyla gerçekleştirilebilir.

Gerçek Dünya Uygulamaları

Çok modlu öğrenme, günümüzün en etkileyici yapay zeka atılımlarının çoğunun arkasındaki itici güçtür ve karmaşık sorunları çözmek için farklı veri siloları arasındaki boşluğu doldurur. .

  • Görsel Soru Yanıtlama (VQA): Bu uygulamada, sistem bir görüntüyü analiz etmeli ve bununla ilgili doğal dilde bir soruya yanıt vermelidir, örneğin "Trafik ışığı hangi renkte?". Bu, modelin metnin anlamını anlamasını ve bilgisayar görüşünü kullanarak ilgili görsel öğeleri uzamsal olarak konumlandırmasını gerektirir. .
  • Otonom Araçlar: Otonom araçlar, güvenli bir şekilde seyir etmek için LiDAR nokta bulutları, kamera video görüntüleri ve radardan gelen verileri birleştiren sensör füzyonuna büyük ölçüde güvenmektedir. Bu çoklu modlu girdi, bir sensör arızalandığında (örneğin, güneş parlaması nedeniyle kamera kör olduğunda ), diğer sensörlerin yol güvenliğini sağlayabilmesini garanti eder.
  • Sağlık Teşhisi: Sağlık hizmetlerinde yapay zeka, tıbbi görüntü analizlerini (MRG veya X-ışınları gibi) yapılandırılmamış metin hasta geçmişi ve genetik verilerle birlikte analiz ederek çok modlu öğrenmeyi kullanır. Bu kapsamlı bakış açısı, doktorların daha doğru teşhisler koymasına yardımcı olur. Bu konu, Nature Digital Medicine dergilerinde sıklıkla tartışılan bir konudur.
  • Üretken AI: Metin komutlarından görüntüler oluşturan araçlar, örneğin Stable Diffusion, tamamen modelin dilsel açıklamalar ile görsel dokular arasındaki ilişkiyi anlama yeteneğine dayanır.

Ultralytics ile Çok Modlu Nesne Algılama

Standart nesne algılayıcıları önceden tanımlanmış sınıflara dayanırken, YOLO gibi çok modlu yaklaşımlar, kullanıcıların açık sözcük dağarcığı metin komutlarını kullanarak detect olanak tanır. Bu, Ultralytics metinsel kavramları görsel özelliklerle ilişkilendirmenin gücünü göstermektedir.

Aşağıdaki Python parçacığı, önceden eğitilmiş YOLO modelini kullanarak özel metin girdilerine dayalı detect gösterir. metin girdileri.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Anahtar Terimlerin Farklılaştırılması

Modern YZ'nin manzarasında gezinmek için, 'Çok Modlu Öğrenme'yi ilgili kavramlardan ayırmak yararlı olacaktır:

  • Çok Modlu Model: "Çok Modlu Öğrenme", metodoloji ve çalışma alanını ifade eder. "Çok Modlu Model" ( GPT-4 veya Google Gemini gibi), bu eğitim sürecinin sonucunda ortaya çıkan belirli bir artefakt veya yazılım ürünüdür.
  • Tek modlu AI: Geleneksel Bilgisayar Görme genellikle tek modludur ve yalnızca görsel verilere odaklanır. Ultralytics gibi bir model, nesneleri algılamak için en gelişmiş CV aracı olsa da, daha büyük bir çok modlu boru hattının parçası olmadığı sürece, genellikle yalnızca görsel girdiler üzerinde çalışır.
  • Büyük Dil Modelleri (LLM'ler): Geleneksel LLM'ler tek modludur ve yalnızca metin üzerinde eğitilir. Bununla birlikte, sektör "Büyük Çok Modlu Taşımacılığa" doğru kaymaktadır. Modeller" (LMM'ler) gibi çerçeveler tarafından desteklenen bir eğilim olan görüntüleri ve metinleri yerel olarak işleyebilen PyTorch ve TensorFlow.

Geleceğe Bakış

Çok modlu öğrenmenin gidişatı, aşağıdaki özelliklere sahip sistemlere işaret etmektedir Yapay Genel Zeka (AGI) özellikleri. Bu modeller, dili görsel ve fiziksel gerçeklikle başarılı bir şekilde temellendirerek gerçek muhakemeye doğru istatistiksel korelasyon. Gibi kurumların araştırmaları MIT CSAIL ve Stanford Vakıf Modelleri Araştırma Merkezi, Türkiye'deki vakıf modellerini geliştirmeye devam ediyor. Makinelerin karmaşık, çok duyulu ortamları nasıl algıladığı ve bunlarla nasıl etkileşime girdiğinin sınırları.

Ultralytics olarak, bu gelişmeleri Ultralytics entegre ederek, kullanıcıların verileri yönetmelerine, modelleri eğitmelerine ve YOLO26'nın hızından açık sözlük algılamanın çok yönlülüğüne kadar mevcut tüm yöntemlerden yararlanarak çözümler uygulamalarına olanak tanıyoruz. Ul Ultralytics , kullanıcıların verileri yönetmelerine, modelleri eğitmelerine ve

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın