Sözlük

Doğrulama Verileri

Aşırı uyumu önlemek, hiperparametreleri ayarlamak ve sağlam, gerçek dünya performansı sağlamak için makine öğrenimi modellerini doğrulama verileriyle optimize edin.

Doğrulama verileri, hiperparametrelerini ayarlarken bir modelin uyumunun tarafsız bir değerlendirmesini sağlamak için kullanılan, eğitim sürecinden geri tutulan bir veri örneğidir. Doğrulama setinin birincil rolü, performansının sık ve bağımsız bir değerlendirmesini sunarak bir makine öğrenimi (ML) modelinin geliştirilmesine rehberlik etmektir. Bu geri bildirim döngüsü, yalnızca gördükleri veriler üzerinde iyi performans gösteren değil, aynı zamanda sağlam Yapay Zeka (AI) sistemleri oluşturmanın merkezinde yer alan bir kavram olan yeni, görülmemiş verilere etkili bir şekilde genelleme yapan modeller oluşturmak için gereklidir.

Doğrulama Verilerinin Rolü

Doğrulama verilerinin temel amacı aşırı uyumu önlemektir. Aşırı uyum, bir model eğitim verilerini çok iyi öğrendiğinde, yeni verilere uygulanmayan gürültü ve ayrıntıları yakaladığında ve böylece performansına zarar verdiğinde ortaya çıkar. Geliştiriciler, modeli düzenli aralıklarla (örneğin her epoktan sonra) doğrulama setine karşı test ederek genelleme hatasını izleyebilirler. Eğitim verilerindeki performans artmaya devam ederken doğrulama verilerindeki performans durgunlaşır veya düşerse, bu aşırı uyumun açık bir işaretidir.

Bu değerlendirme süreci hiperparametre ayarı için çok önemlidir. Hiperparametreler, öğrenme oranı veya yığın boyutu gibi modelin dışında bulunan ve verilerden öğrenilmeyen yapılandırma ayarlarıdır. Doğrulama seti, en iyi performansı veren seti bulmak için farklı hiperparametre kombinasyonlarının denenmesine olanak tanır. Bu iteratif süreç, model seçimi ve optimizasyonunun temel bir parçasıdır.

Eğitim ve Test Verilerine Karşı Doğrulama Verileri

Tipik bir makine öğrenimi projesinde veri kümesi üç alt kümeye ayrılır ve bunların farklı rollerini anlamak esastır. Veri bölmeye yönelik yaygın bir yaklaşım eğitim için %70, doğrulama için %15 ve test için %15 pay ayırmaktır.

  • Eğitim Verileri: Bu, modeli öğretmek için kullanılan verilerin en büyük kısmıdır. Model, dahili model ağırlıklarını ayarlayarak bu veri kümesinden kalıpları, özellikleri ve ilişkileri yinelemeli olarak öğrenir.
  • Doğrulama Verileri: Bu ayrı alt küme, eğitim süreci sırasında tarafsız bir değerlendirme sağlamak için kullanılır. Hiperparametrelerin ayarlanmasına ve aşırı uyumu önlemek için erken durdurmanın ne zaman uygulanacağı gibi önemli kararların alınmasına yardımcı olur. Ultralytics ekosisteminde, bu değerlendirme doğrulama modunda ele alınır.
  • Test Verileri: Bu veri seti, model tamamen eğitilene ve ayarlanana kadar bekletilir. Modelin performansının nihai ve tarafsız bir değerlendirmesini sağlamak için yalnızca bir kez kullanılır. Test setinin performansı, modelin gerçek dünyadaki bir dağıtım senaryosunda nasıl performans göstermesinin beklendiğini gösterir.

Özellikle doğrulama ve test setleri arasında katı bir ayrımın sürdürülmesi, bir modelin yeteneklerini doğru bir şekilde değerlendirmek ve yanlılık-varyans ödünleşiminden kaçınmak için kritik öneme sahiptir.

Gerçek Dünyadan Örnekler

  1. Bilgisayarla Görme Nesne Algılama: Görüntülerdeki nesneleri tespit etmek için bir Ultralytics YOLO modelini eğitirken (örneğin, VisDrone veri kümesini kullanarak), etiketli görüntülerin bir kısmı doğrulama verileri olarak ayrılır. Eğitim sırasında, modelin mAP'si (Ortalama Ortalama Hassasiyet) her epoktan sonra bu doğrulama kümesi üzerinde hesaplanır. Bu doğrulama mAP'si, test seti üzerinde son bir performans kontrolü yapılmadan önce eğitimin ne zaman durdurulacağına veya hangi veri artırma tekniklerinin en iyi sonucu vereceğine karar verilmesine yardımcı olur. Etkili model değerlendirme stratejileri büyük ölçüde bu ayrıma dayanır.
  2. Doğal Dil İşleme Metin Sınıflandırma: Müşteri yorumlarını olumlu veya olumsuz olarak sınıflandırmak için bir model geliştirirken(duyarlılık analizi), en uygun mimariyi seçmek (örneğin, LSTM vs. Transformer) veya bırakma oranları gibi hiperparametreleri ayarlamak için bir doğrulama seti kullanılır. Doğrulama kümesinde en yüksek F1 puanına veya doğruluğa ulaşan model nihai test için seçilecektir. Hugging Face Datasets gibi kaynaklar genellikle bu amaç için önceden bölünmüş veri kümeleri sağlar.

Çapraz Doğrulama

Mevcut veri miktarı sınırlı olduğunda, Çapraz Doğrulama (özellikle K-Kat Çapraz Doğrulama) adı verilen bir teknik sıklıkla kullanılır. Burada eğitim verileri 'K' alt kümeye (kat) ayrılır. Model, her seferinde eğitim için K-1 kat ve doğrulama seti olarak kalan kat kullanılarak K kez eğitilir. Daha sonra tüm K çalıştırmaların ortalaması alınır. Bu, scikit-learn belgeleri ve Ultralytics K-Fold Cross-Validation kılavuzu gibi kaynaklarda açıklandığı gibi, model performansının daha sağlam bir tahminini sağlar ve sınırlı verilerin daha iyi kullanılmasını sağlar.

Özetle, doğrulama verileri PyTorch ve TensorFlow gibi çerçevelerle güvenilir ve yüksek performanslı yapay zeka modelleri oluşturmanın temel taşıdır. Etkili hiperparametre ayarı, model seçimi ve aşırı uyumun önlenmesini sağlayarak modellerin eğitildikleri verilerin çok ötesinde genelleme yapmasını sağlar. Ultralytics HUB gibi platformlar, bu veri kümelerini etkili bir şekilde yönetmek için entegre araçlar sunar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı