Aşırı uyumu önlemek, hiperparametreleri ayarlamak ve sağlam, gerçek dünya performansı sağlamak için makine öğrenimi modellerini doğrulama verileriyle optimize edin.
Doğrulama verileri, hiperparametrelerini ayarlarken bir modelin uyumunun tarafsız bir değerlendirmesini sağlamak için kullanılan, eğitim sürecinden geri tutulan bir veri örneğidir. Doğrulama setinin birincil rolü, performansının sık ve bağımsız bir değerlendirmesini sunarak bir makine öğrenimi (ML) modelinin geliştirilmesine rehberlik etmektir. Bu geri bildirim döngüsü, yalnızca gördükleri veriler üzerinde iyi performans gösteren değil, aynı zamanda sağlam Yapay Zeka (AI) sistemleri oluşturmanın merkezinde yer alan bir kavram olan yeni, görülmemiş verilere etkili bir şekilde genelleme yapan modeller oluşturmak için gereklidir.
Doğrulama verilerinin temel amacı aşırı uyumu önlemektir. Aşırı uyum, bir model eğitim verilerini çok iyi öğrendiğinde, yeni verilere uygulanmayan gürültü ve ayrıntıları yakaladığında ve böylece performansına zarar verdiğinde ortaya çıkar. Geliştiriciler, modeli düzenli aralıklarla (örneğin her epoktan sonra) doğrulama setine karşı test ederek genelleme hatasını izleyebilirler. Eğitim verilerindeki performans artmaya devam ederken doğrulama verilerindeki performans durgunlaşır veya düşerse, bu aşırı uyumun açık bir işaretidir.
Bu değerlendirme süreci hiperparametre ayarı için çok önemlidir. Hiperparametreler, öğrenme oranı veya yığın boyutu gibi modelin dışında bulunan ve verilerden öğrenilmeyen yapılandırma ayarlarıdır. Doğrulama seti, en iyi performansı veren seti bulmak için farklı hiperparametre kombinasyonlarının denenmesine olanak tanır. Bu iteratif süreç, model seçimi ve optimizasyonunun temel bir parçasıdır.
Tipik bir makine öğrenimi projesinde veri kümesi üç alt kümeye ayrılır ve bunların farklı rollerini anlamak esastır. Veri bölmeye yönelik yaygın bir yaklaşım eğitim için %70, doğrulama için %15 ve test için %15 pay ayırmaktır.
Özellikle doğrulama ve test setleri arasında katı bir ayrımın sürdürülmesi, bir modelin yeteneklerini doğru bir şekilde değerlendirmek ve yanlılık-varyans ödünleşiminden kaçınmak için kritik öneme sahiptir.
Mevcut veri miktarı sınırlı olduğunda, Çapraz Doğrulama (özellikle K-Kat Çapraz Doğrulama) adı verilen bir teknik sıklıkla kullanılır. Burada eğitim verileri 'K' alt kümeye (kat) ayrılır. Model, her seferinde eğitim için K-1 kat ve doğrulama seti olarak kalan kat kullanılarak K kez eğitilir. Daha sonra tüm K çalıştırmaların ortalaması alınır. Bu, scikit-learn belgeleri ve Ultralytics K-Fold Cross-Validation kılavuzu gibi kaynaklarda açıklandığı gibi, model performansının daha sağlam bir tahminini sağlar ve sınırlı verilerin daha iyi kullanılmasını sağlar.
Özetle, doğrulama verileri PyTorch ve TensorFlow gibi çerçevelerle güvenilir ve yüksek performanslı yapay zeka modelleri oluşturmanın temel taşıdır. Etkili hiperparametre ayarı, model seçimi ve aşırı uyumun önlenmesini sağlayarak modellerin eğitildikleri verilerin çok ötesinde genelleme yapmasını sağlar. Ultralytics HUB gibi platformlar, bu veri kümelerini etkili bir şekilde yönetmek için entegre araçlar sunar.