Sözlük

Doğrulama Verileri

Aşırı uyumu önlemek, hiperparametreleri ayarlamak ve sağlam, gerçek dünya performansı sağlamak için makine öğrenimi modellerini doğrulama verileriyle optimize edin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Doğrulama verileri, makine öğrenimi (ML) modeli geliştirme yaşam döngüsünde çok önemli bir bileşendir. Veri kümenizin ayrı bir bölümüdür, modeli ilk olarak oturtmak için kullanılan eğitim verilerinden ve son değerlendirme için kullanılan test verilerinden farklıdır. Doğrulama verilerinin birincil amacı, modelin hiperparametrelerini ayarlarken ve model mimarisinin kendisi hakkında kararlar verirken bir modelin eğitim veri kümesine uyumunun tarafsız bir değerlendirmesini sağlamaktır. Bu süreç, görünmeyen veriler üzerindeki nihai performansını değerlendirmeden önce en iyi model yapılandırmasının seçilmesine yardımcı olur.

Model Geliştirmedeki Rolü

Eğitim aşamasında bir makine öğrenimi modeli eğitim verilerinden örüntüler öğrenir. Ancak, modeli sadece öğrendiği verilerle değerlendirmek yanıltıcı olabilir ve genellikle aşırı uyum nedeniyle aşırı iyimser performans tahminleriyle sonuçlanır - modelin eğitim verilerini, gürültüsü ve belirli tuhaflıkları da dahil olmak üzere çok iyi öğrenmesi, yeni verilere genelleme yeteneğini engeller. Doğrulama verileri, eğitim sırasında görülmeyen veriler için bir vekil görevi görür. Geliştiriciler, modelin doğrulama kümesi üzerindeki performansını düzenli aralıklarla (örneğin her epoktan sonra) değerlendirerek

  1. Hiperparametreleri Ayarlayın: Öğrenme hızı, yığın boyutu veya modelin karmaşıklığı (örneğin, bir sinir ağındaki katman sayısı) gibi ayarları yapın. Hiperparametre Ayarlama kılavuzu gibi teknikleri keşfedin.
  2. Modelleri Seçin: Doğrulama kümesinde hangisinin en iyi performansı gösterdiğini görmek için farklı algoritmaları veya mimarileri karşılaştırın.
  3. Aşırı Uyumu Önleyin: Eğitim setindeki performans hala artıyor olsa bile, doğrulama setindeki performans düşmeye başladığında eğitimin durdurulduğu erken durdurmayı uygulayın. Model Eğitimi için İpuçları hakkında daha fazla bilgi edinin.

Eğitim ve Test Verilerine Karşı Doğrulama Verileri

Eğitim, doğrulama ve test veri kümeleri arasındaki ayrımın anlaşılması esastır:

  • Eğitim Verileri: Veri kümesinin en büyük kısmı, kalıpları öğrenmek ve iç parametrelerini(model ağırlıkları) ayarlamak için doğrudan algoritma tarafından kullanılır.
  • Doğrulama Verileri: Eğitim sırasında hiperparametreleri ayarlamak ve model seçim kararları vermek için yinelemeli olarak kullanılan orta büyüklükte bir kısım. Modelin mevcut eğitim durumuna göre ne kadar iyi genelleme yaptığına dair geri bildirim sağlar.
  • Test Verileri: Geliştirme sürecinin en sonuna kadar saklanan daha küçük, tamamen ayrı bir bölüm. Seçilen modelin gerçekten görülmemiş veriler üzerindeki performansının son ve tarafsız değerlendirmesini sağlar. En önemlisi, modelin beklenen gerçek dünya performansının güvenilir bir şekilde değerlendirilmesini sağlamak için test seti herhangi bir eğitim veya ayar kararını etkilememelidir.

Önemi ve Faydaları

Sağlam ve güvenilir makine öğrenimi modelleri oluşturmak için özel bir doğrulama seti kullanmak şarttır. Temel faydalar şunlardır:

  • Geliştirilmiş Genelleme: Modelin sadece eğitildiği veriler üzerinde değil, aynı zamanda yeni, görülmemiş veriler üzerinde de iyi performans göstermesini sağlamaya yardımcı olur.
  • Objektif Model Karşılaştırması: Farklı modelleri veya hiperparametre ayarlarını karşılaştırmak için adil bir temel sağlar.
  • Aşırı Uyum Önleme: Bir modelin genel kalıpları öğrenmek yerine eğitim verilerini ezberlemeye başladığını tespit etmek için bir erken uyarı sistemi görevi görür. Model Değerlendirme ve İnce Ayar hakkında ayrıntılı bir kılavuz daha fazla bağlam sağlayabilir.

Gerçek Dünyadan Örnekler

  1. Ultralytics YOLO ileNesne Algılama: Bir nesneyi eğitirken Ultralytics YOLOOtonom sürüş uygulaması için arabalar ve yayalar gibi nesneleri tespit etmek için model, eğitim verileri binlerce etiketli görüntüden oluşur. Benzer nesnelere sahip farklı görüntüler içeren doğrulama seti, ortalama Ortalama Hassasiyet (mAP) gibi metrikleri hesaplamak için her eğitim döneminden sonra kullanılır. Bu doğrulama mAP'si, son testten önce doğrulama setinde en iyi performansı veren yapılandırmayı bulmak için Ultralytics HUB gibi araçları kullanarak hiperparametrelerde (örneğin, öğrenme hızı, veri artırma yoğunluğu) ayarlamalar yapılmasına rehberlik eder.
  2. Tıbbi Görüntü Analizi: Beyin Tümörü veri kümesi gibi bir veri kümesi kullanarak beyin taramalarındaki tümörleri sınıflandırmak için bir Evrişimsel Sinir Ağı (CNN) geliştirdiğinizi varsayalım. Doğrulama seti, farklı CNN mimarilerini (örn. ResNet vs. VGG) karşılaştırmak veya bırakma oranları gibi parametreleri ayarlamak için kullanılacaktır. Araştırmacılar, doğrulama doğruluğuna veya F1 puanına göre optimizasyon yaparak, FDA gibi kurumlar tarafından düzenlenen klinik uygulamalar için çok önemli olan nihai test seti değerlendirmesinin bütünlüğünden ödün vermeden en umut verici modeli seçebilirler.

Doğrulama Verilerini İçeren Teknikler

Bazen, özellikle de sınırlı veriyle, tek bir doğrulama ayrımı temsili olmayabilir. Çapraz Doğrulama gibi teknikler bunu ele alır. K-Kat Çapraz Doğrulamada, eğitim verileri 'k' alt kümeye (kat) bölünür. Model, her seferinde doğrulama kümesi olarak farklı bir kat ve eğitim için kalan k-1 kat kullanılarak 'k' kez eğitilir. 'k' doğrulama katındaki ortalama performans, modelin genelleme kabiliyetinin daha sağlam bir tahminini verir. Scikit-learn gibi kütüphanelerde uygulamalar bulabilirsiniz.

Doğrulama verileri, etkili bilgisayarla görme ve diğer makine öğrenimi modellerinin geliştirilmesine rehberlik etmek, iyi ayarlanmış olmalarını ve eğitim veri setinin ötesinde yeni zorluklara genelleme yapabilmelerini sağlamak için vazgeçilmezdir.

Tümünü okuyun