Sözlük

Bilgi Distilasyonu

Knowledge Distillation'ın daha hızlı çıkarım, gelişmiş doğruluk ve uç cihaz dağıtım verimliliği için yapay zeka modellerini nasıl sıkıştırdığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Bilgi Damıtma, makine öğreniminde bilgiyi büyük, karmaşık bir modelden ("öğretmen") daha küçük, daha basit bir modele ("öğrenci") aktarmak için kullanılan bir model sıkıştırma tekniğidir. Amaç, öğrencinin daha az parametreye sahip olmasına ve hesaplama açısından daha ucuz olmasına rağmen öğrenci modelini öğretmen modeliyle karşılaştırılabilir performans elde edecek şekilde eğitmektir. Bu, özellikle kaynakları kısıtlı cihazlarda veya hızlı çıkarım süreleri gerektiren uygulamalarda modelleri dağıtmak için kullanışlıdır.

Bilgi Distilasyonu Nasıl Çalışır?

Bilgi Damıtmanın arkasındaki temel fikir, öğretmen modelinin yumuşak çıktılarını (olasılıkları), sert etiketlere (temel gerçek) ek olarak veya bunun yerine öğrenci modeli için eğitim hedefleri olarak kullanmaktır. Genellikle geniş veri kümeleri üzerinde önceden eğitilmiş olan öğretmen modelleri, verilerdeki karmaşık ilişkileri yakalayabilir ve iyi genelleme yapabilir. Öğrenci modeli bu yumuşak hedeflerden öğrenerek, yalnızca sabit etiketlerden öğrenerek öğrenebileceğinden daha zengin bilgiler öğrenebilir. Bu süreç genellikle olasılık dağılımını yumuşatmak için öğretmen çıkarımı sırasında softmax işlevinde daha yüksek bir "sıcaklık" kullanılmasını içerir ve öğrenciye daha incelikli bilgiler sağlar.

Faydaları ve Uygulamaları

Bilgi Damıtma, çeşitli yapay zeka uygulamalarında onu değerli bir teknik haline getiren çeşitli avantajlar sunar:

Bilgi Damıtmanın gerçek dünyadaki uygulamaları yaygındır:

  • Doğal Dil İşleme (NLP): NLP'de Bilgi Damıtma, GPT-3 veya BERT gibi büyük dil modellerini mobil veya uç dağıtım için daha küçük, daha verimli modellere sıkıştırmak için kullanılabilir. Örneğin, damıtılmış bir model, bulut bağlantısı gerektirmeden mobil cihazlarda duygu analizine güç sağlayabilir.
  • Bilgisayarla Görme: Ultralytics YOLOv8 veya benzer nesne algılama modelleri, uç cihazlardaki gerçek zamanlı uygulamalarda kullanılmak üzere damıtılabilir. Örneğin, akıllı şehirlerde, trafik kavşaklarında doğrudan uç bilişim cihazlarında çalışan verimli trafik izleme ve yönetimi için damıtılmış modeller kullanılabilir. Bir başka uygulama da, damıtılmış modellerin bakım noktasında daha hızlı ön teşhis sağlayabileceği tıbbi görüntü analizidir.

Bilgi Damıtma ve Model Budama ve Niceleme

Bilgi Damıtma bir model sıkıştırma tekniği olmakla birlikte, model budama ve model niceleme gibi diğer yöntemlerden farklıdır. Model budama, daha az önemli bağlantıları (ağırlıkları) kaldırarak bir modelin boyutunu azaltırken, model niceleme daha az bellek ve hesaplama kullanmak için modelin ağırlıklarının hassasiyetini azaltır. Öte yandan Bilgi Damıtma, daha büyük bir modelin bilgisini kullanarak sıfırdan yeni ve daha küçük bir model eğitir. Bu teknikler birleştirilebilir; örneğin, damıtılmış bir model daha da fazla sıkıştırma ve verimlilik elde etmek için daha fazla budanabilir veya nicelendirilebilir. Sony'nin Model Sıkıştırma Araç Seti (MCT) gibi araçlar ve OpenVINO uç dağıtımı için damıtma işleminden sonra modelleri daha da optimize etmek için kullanılabilir.

Tümünü okuyun