Aşırı uyumu önlemek, hiperparametreleri ayarlamak ve sağlam, gerçek dünya performansı sağlamak için makine öğrenimi modellerini doğrulama verileriyle optimize edin.
Doğrulama verileri, Makine Öğrenimi (ML) geliştirme döngüsünde çok önemli bir bileşendir. Modeli oturtmak için kullanılan eğitim verilerinden ve son değerlendirme için kullanılan test verilerinden farklı olarak orijinal veri kümesinin ayrı bir alt kümesidir. Doğrulama verilerinin birincil amacı, model hiperparametrelerini ayarlarken ve modelin mimarisi hakkında kararlar verirken eğitim veri kümesine uygun bir modelin tarafsız bir değerlendirmesini sağlamaktır. Bu süreç, görünmeyen veriler üzerindeki nihai performansını değerlendirmeden önce en iyi model yapılandırmasının seçilmesine yardımcı olur.
Model eğitim süreci sırasında bir makine öğrenimi modeli eğitim verilerinden örüntüler öğrenir. Ancak, modeli yalnızca bu veriler üzerinden değerlendirmek yanıltıcı olabilir çünkü model, aşırı uyum olarak bilinen bir olgu olan eğitim örneklerini basitçe ezberleyebilir. Doğrulama verileri bir kontrol noktası görevi görür. Geliştiriciler, eğitim sırasında modelin performansını periyodik olarak bu ayrı set üzerinde değerlendirerek şunları yapabilirler:
Eğitim, doğrulama ve test veri kümeleri arasındaki ayrımı anlamak, sağlam model geliştirme için temeldir:
Veri seti versiyonlama ve yönetimi için genellikle Ultralytics HUB gibi araçlar kullanılarak yönetilen uygun ayırma, test setinden gelen bilgilerin eğitim veya model seçim sürecine "sızmamasını" sağlar, bu da aşırı iyimser performans tahminlerine yol açabilir.
Doğrulama verileri hiperparametre ayarı için vazgeçilmezdir. Hiperparametreler, öğrenme süreci başlamadan önce ayarlanan, modelin dışındaki yapılandırma ayarlarıdır. Örnekler arasında öğrenme hızı, bir sinir ağındaki katman sayısı veya kullanılan optimizasyon algoritmasının türü yer alır. Geliştiriciler farklı hiperparametre kombinasyonlarıyla birden fazla model versiyonunu eğitir, her birini doğrulama kümesinde değerlendirir ve en iyi performansı veren kombinasyonu seçer. Bu sistematik arama, genellikle MLOps araçlarıyla entegre platformlar tarafından kolaylaştırılan Grid Search veya Bayesian Optimization gibi yöntemler kullanılarak otomatikleştirilebilir.
Mevcut veri miktarı sınırlı olduğunda, Çapraz Doğrulama (özellikle K-Kat Çapraz Doğrulama) adı verilen bir teknik sıklıkla kullanılır. Burada eğitim verileri 'K' alt kümeye (kat) ayrılır. Model, her seferinde eğitim için K-1 kat ve doğrulama seti olarak kalan kat kullanılarak K kez eğitilir. Daha sonra tüm K çalıştırmaların ortalaması alınır. Bu, Ultralytics K-Fold Cross-Validation kılavuzunda açıklandığı gibi, model performansının daha sağlam bir tahminini sağlar ve sınırlı verilerin daha iyi kullanılmasını sağlar.
Özetle, doğrulama verileri güvenilir ve yüksek performanslı Yapay Zeka (AI) modelleri oluşturmanın temel taşıdır. Etkili hiperparametre ayarı, model seçimi ve aşırı uyumun önlenmesini sağlayarak modellerin eğitildikleri verilerin çok ötesinde genelleme yapmasını sağlar.