t-dağıtılmış Stokastik Komşu Gömme (t-SNE)
Yüksek boyutlu verileri görselleştirmek için güçlü bir teknik olan t-SNE'yi keşfedin. Yapay zeka ve makine öğrenimi alanındaki kullanımlarını, faydalarını ve uygulamalarını öğrenin.
t-dağıtılmış Stokastik Komşu Gömme (t-SNE), öncelikle veri görselleştirme için kullanılan güçlü, doğrusal olmayan bir boyutsallık azaltma tekniğidir. Makine Öğrenimi (ML) alanındaki araştırmacıların ve uygulayıcıların yüksek boyutlu veri kümelerini düşük boyutlu bir alanda, tipik olarak 2D veya 3D bir grafikte görselleştirmelerine olanak tanır. Laurens van der Maaten ve Geoffrey Hinton tarafından geliştirilen bu yöntemin ana gücü, diğer tekniklerin gözden kaçırabileceği kümeler ve manifoldlar gibi verilerin altında yatan yerel yapıyı ortaya çıkarma konusundaki olağanüstü yeteneğidir. Uygulamaları Scikit-learn gibi kütüphanelerde ve PyTorch gibi çerçevelerde yaygın olarak mevcuttur.
t-SNE'nin ana fikri, düşük boyutlu bir haritada benzer veri noktalarını birbirine yakın ve benzer olmayan noktaları birbirinden uzak yerleştirmektir. Bunu, veri noktaları arasındaki yüksek boyutlu Öklid mesafelerini benzerlikleri temsil eden koşullu olasılıklara dönüştürerek gerçekleştirir. Daha sonra düşük boyutlu haritada benzer bir olasılık dağılımı kullanır ve bu iki dağılım arasındaki farklılığı en aza indirir.
Ai ve Ml'de Uygulamalar
t-SNE, Yapay Zekanın (AI) çeşitli alanlarında görsel keşif için yaygın olarak kullanılmaktadır.
- Sinir Ağı Özelliklerini Görselleştirme: Bilgisayarla Görme (CV) alanında t-SNE, bir derin öğrenme modelinin ne öğrendiğini anlamak için çok değerlidir. Örneğin, görüntü sınıflandırma için eğitilmiş bir Evrişimsel Sinir Ağının (CNN) bir ara katmanından özellik katıştırmalarını alabilir ve bunları çizmek için t-SNE kullanabilirsiniz. Ultralytics YOLO modeli gibi bir model CIFAR-10 gibi bir veri kümesi üzerinde iyi eğitilmişse, ortaya çıkan çizim farklı görüntü kategorilerine (örneğin, "kediler", "köpekler", "arabalar") karşılık gelen farklı kümeler gösterecektir. Bu da modelin ayırt edici gücünün görsel olarak doğrulanmasını sağlar.
- Metin Verilerini Keşfetme: Doğal Dil İşleme'de (NLP) t-SNE, Word2Vec veya GloVe gibi yüksek boyutlu kelime yerleştirmelerini görselleştirebilir. Bu, kelimeler arasındaki anlamsal ilişkileri anlamaya yardımcı olur; örneğin, "kral", "kraliçe", "prens" ve "prenses" gibi kelimeler birlikte kümelenebilir. Bu tür görselleştirmeler, metin derlemlerini keşfetmek ve belge sınıflandırma gibi görevlerde kullanılan dil modellerinde hata ayıklamak için kullanışlıdır.
- Biyoinformatik ve Tıbbi Görüntüleme: Araştırmacılar, hücre popülasyonlarını veya hastalık alt tiplerini tanımlamak için mikro dizilerden gen ekspresyon kalıpları gibi karmaşık biyolojik verileri görselleştirmek için t-SNE kullanmaktadır. Beyin Tümörü veri kümesinde olduğu gibi farklı doku veya tümör türlerini kümelemek için tıbbi görüntü analizinde de kullanılır.
T-SNE vs. Diğer Teknikler
t-SNE'yi diğer boyutsallık azaltma yöntemlerinden ayırmak önemlidir.
- Temel Bileşen Analizi (PCA): PCA, verilerdeki maksimum varyansı korumaya odaklanan doğrusal bir tekniktir; bu da büyük ölçekli, küresel yapıyı korumaya karşılık gelir. Buna karşılık, t-SNE yerel yapıyı (yani, bireysel veri noktalarının nasıl bir araya geldiğini) ortaya çıkarmada başarılı olan doğrusal olmayan bir yöntemdir. PCA daha hızlı ve deterministik olsa da, doğrusal yapısı t-SNE'nin yakalayabileceği karmaşık ilişkileri yakalamakta başarısız olabilir. Hesaplama yükünü ve gürültüyü azaltmak için t-SNE uygulamadan önce bir veri kümesini orta sayıda boyuta (örneğin 30-50) indirmek için ilk olarak PCA kullanmak yaygın bir uygulamadır.
- Otomatik kodlayıcılar: Otomatik kodlayıcılar güçlü, doğrusal olmayan veri temsillerini öğrenebilen bir sinir ağı türüdür. PCA ve t-SNE'den daha esnek olmakla birlikte, genellikle daha az yorumlanabilir ve eğitilmeleri hesaplama açısından daha pahalıdır. Doğrudan görselleştirmeden ziyade öncelikle özellik çıkarma için kullanılırlar.
Dikkate Alınması Gereken Hususlar ve Sınırlamalar
Güçlü olmasına rağmen, t-SNE kullanıcıların dikkate alması gereken bazı sınırlamalara sahiptir.
- Hesaplama Maliyeti: Algoritma, veri noktası sayısında ikinci dereceden bir zaman ve uzay karmaşıklığına sahiptir, bu da onu yüz binlerce örnek içeren veri kümeleri için yavaş hale getirir. Barnes-Hut t-SNE gibi teknikler önemli performans iyileştirmeleri sunar.
- Hiperparametre Hassasiyeti: Sonuçlar, hiperparametrelerinden, özellikle de her noktanın sahip olduğu yakın komşu sayısı hakkında bir tahmin olan "perplexity" değerinden önemli ölçüde etkilenebilir. Evrensel olarak en iyi tek bir perplexity değeri yoktur. Bu etkileri anlamak için mükemmel bir kaynak"t-SNE Nasıl Etkili Kullanılır" başlıklı Distill makalesidir.
- Küresel Yapı Yorumu: t-SNE görselleştirmeleri dikkatle yorumlanmalıdır. Kümelerin göreceli boyutları ve son çizimdeki aralarındaki mesafeler, orijinal yüksek boyutlu uzaydaki gerçek ayrımı yansıtmak zorunda değildir. Algoritmanın odak noktası küresel geometriyi değil, yerel komşulukları korumaktır. TensorFlow Projector gibi araçlar, sezgi oluşturmaya yardımcı olabilecek etkileşimli keşfe izin verir. Bu tür analizlerin yönetimi ve görselleştirilmesi Ultralytics HUB gibi platformlar kullanılarak kolaylaştırılabilir.