Sözlük

Yarı Denetimli Öğrenme

Yarı Denetimli Öğrenmenin yapay zeka modellerini geliştirmek, etiketleme maliyetlerini azaltmak ve doğruluğu artırmak için etiketli ve etiketsiz verileri nasıl birleştirdiğini keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Yarı Denetimli Öğrenme (SSL), eğitim sırasında az miktarda etiketli veriyi büyük miktarda etiketsiz veri ile birleştirerek Makine Öğreniminde (ML) güçlü bir orta yolu temsil eder. Bu yaklaşım özellikle etiketli veri elde etmenin pahalı, zaman alıcı veya pratik olmadığı, ancak etiketsiz verinin bol olduğu senaryolarda değerlidir. SSL, model performansını yalnızca sınırlı etiketli veriler kullanılarak elde edilebilecek olanın ötesinde iyileştirmek için etiketsiz verilerdeki temel yapıdan yararlanmayı amaçlar ve bu da onu birçok gerçek dünya Yapay Zeka (AI) problemi için pratik bir teknik haline getirir.

Yarı Gözetimli Öğrenme Nasıl Çalışır?

SSL algoritmaları, etiketli ve etiketsiz veriler arasındaki ilişki hakkında belirli varsayımlar yaparak çalışır. Yaygın varsayımlar arasında 'pürüzsüzlük varsayımı' (birbirine yakın noktaların bir etiketi paylaşması muhtemeldir) veya 'küme varsayımı' (veriler farklı kümeler oluşturma eğilimindedir ve aynı küme içindeki noktalar muhtemelen bir etiketi paylaşır) yer alır. Teknikler genellikle etiketli veriler üzerinde bir başlangıç modelinin eğitilmesini ve ardından bu modelin yüksek güvenirlikli tahminlere dayalı olarak etiketsiz veriler için sözde etiketler oluşturmak üzere kullanılmasını içerir. Model daha sonra hem orijinal etiketli veriler hem de yeni sözde etiketli veriler üzerinde yeniden eğitilir. Diğer bir yaklaşım ise modelin, girdisi hafifçe bozulsa bile etiketsiz bir örnek için aynı çıktıyı üretmeye teşvik edildiği tutarlılık düzenlemesidir ve genellikle veri artırımı yoluyla elde edilir. Bu yöntemler, modelin geniş etiketlenmemiş örnek havuzunun doğasında bulunan kalıplardan ve dağılımdan öğrenmesini sağlar. Daha gelişmiş teknikler, SSL hakkındakiGoogle AI Blog gönderileri gibi kaynaklarda incelenmiştir.

Diğer Öğrenme Paradigmaları ile Karşılaştırma

Yarı Denetimli Öğrenme, diğer birincil öğrenme türleri arasında benzersiz bir yer kaplar:

  • Denetimli Öğrenme: Tamamen etiketli eğitim verilerine dayanır. SSL, etiketli veriler az olduğunda performansı potansiyel olarak artırmak için etiketsiz verileri dahil ederek farklılık gösterir.
  • Denetimsiz Öğrenme: Kümeleme veya boyut azaltma gibi kalıpları veya yapıları bulmak için yalnızca etiketlenmemiş verileri kullanır. SSL, etiketlenmemiş verileri kullanır ancak sınıflandırma veya regresyon gibi görevleri gerçekleştirmek için öğrenme sürecini küçük bir etiketli örnek kümesiyle yönlendirir.
  • Kendi Kendine Denetimli Öğrenme (SSL): Etiketlerin girdi verilerinin kendisinden otomatik olarak oluşturulduğu bir denetimsiz öğrenme türüdür (örneğin, bir görüntünün maskelenmiş bir kısmının tahmin edilmesi). Etiketsiz veri kullanmasına rağmen, denetim üretme mekanizması, önceden etiketlenmiş ve etiketsiz verileri açıkça birleştiren tipik yarı denetimli yöntemlerden farklıdır.

Gerçek Dünya Uygulamaları

SSL, etiketlemenin darboğaz oluşturduğu alanlarda oldukça etkilidir:

  1. Web Sayfası Sınıflandırması: Az sayıda web sitesini (örneğin, 'spor', 'haber', 'teknoloji') manuel olarak etiketlemek mümkündür, ancak milyarlarca web sitesini etiketlemek pratik değildir. SSL, metin içeriğinden ve bağlantı yapılarından öğrenerek sınıflandırıcının doğruluğunu ve sağlamlığını artırmak için çok sayıda etiketlenmemişweb sitesini kullanabilir(web içeriği madenciliğine genel bakış).
  2. Konuşma Tanıma: Sesi yazıya dökmek önemli ölçüde insan çabası gerektirir. SSL, sistemlerin büyük hacimli yazıya dökülmemiş ses verilerinin yanı sıra az miktarda yazıya dökülmüş ses üzerinde eğitilmesine olanak tanıyarak farklı aksanların ve konuşma tarzlarının tanınmasını geliştirir(konuşma işleme araştırması).
  3. Tıbbi Görüntü Analizi: Tıbbi taramaların ( tümör tespiti için MRI'lar veya CT taramaları gibi) uzman ek açıklamaları maliyetlidir ve özel bilgi gerektirir. SSL, sınırlı sayıda ek açıklamalı görüntü üzerinde eğitilen tanı modellerinin performansını artırmak için çok sayıda etiketsiz taramadan yararlanabilir ve potansiyel olarak sağlık hizmetlerinde daha iyi yapay zeka çözümlerine yol açabilir.
  4. Bilgisayarlı GörüdeNesne Algılama (CV): Binlerce görüntüdeki nesneler için hassas sınırlayıcı kutular oluşturmak yoğun emek gerektirir(veri toplama ve açıklama kılavuzu). SSL teknikleri, aşağıdaki gibi modellerin dedektör performansını artırmak için daha küçük bir etiketli veri kümesinin yanı sıra bol miktarda etiketsiz görüntü veya video karesi kullanabilir Ultralytics YOLO.

Avantajlar ve Zorluklar

SSL'nin birincil avantajı, büyük etiketli veri kümelerine olan bağımlılığı azaltarak veri etiketleme ile ilgili zaman ve kaynaklardan tasarruf sağlamasıdır. Etiketlenmemiş örneklerden gelen bilgileri kullanarak sınırlı veriler üzerinde eğitilen tamamen denetimli modellere kıyasla genellikle daha iyi model genellemesi sağlar. Bununla birlikte, SSL'nin başarısı büyük ölçüde verilerle ilgili temel varsayımların doğru olmasına bağlıdır. Bu varsayımlar geçerli değilse (örneğin, etiketsiz veri dağılımı etiketli veriden çok farklıysa), SSL yöntemleri performansı bile düşürebilir. SSL tekniklerinin dikkatli bir şekilde seçilmesi ve uygulanması çok önemlidir ve genellikle MLOps uygulamalarında uzmanlık gerektirir.

Araçlar ve Eğitim

Aşağıdakiler de dahil olmak üzere birçok modern Derin Öğrenme (DL) çerçevesi PyTorchPyTorch resmi sitesi) ve TensorFlowTensorFlow resmi sitesi), işlevler sunar veya SSL algoritmalarını uygulamak için uyarlanabilir. Scikit-learn gibi kütüphaneler bazı SSL yöntemleri sağlar. Ultralytics HUB gibi platformlar, etiketli ve etiketsiz verilerin karışımlarını içerebilen veri kümelerinin yönetimini kolaylaştırarakUltralytics Ultralytics HUB VeriKümeleri dokümantasyonu), bu tür veri yapılarından yararlanmak için tasarlanmış modellerin eğitiminiUltralytics HUB Bulut Eğitimi) ve dağıtımını(model dağıtım seçenekleri kılavuzu) basitleştirerek süreci kolaylaştırır. SSL'deki araştırmalar, NeurIPS ve ICML gibi büyük AI konferanslarında sıklıkla sunulan katkılarla gelişmeye devam ediyor.

Tümünü okuyun