ML'de doğrulama verilerinin rolünü keşfedin, aşırı uyumu önleyin, modellere ince ayar yapın ve uygulamalar arasında sağlam performans sağlayın.
Doğrulama verileri, makine öğrenimi (ML) modellerinin geliştirilmesinde çok önemli bir bileşendir ve eğitim sürecinde bir modelin performansını değerlendirmek ve ince ayar yapmak için kullanılır. Modelin ilk eğitim aşamasında görmediği bağımsız bir veri kümesi olarak hizmet eder ve modelin yeni, görülmemiş verilere ne kadar iyi genelleme yaptığına dair tarafsız bir değerlendirme sağlar. Doğrulama verilerinin birincil amacı, bir modelin eğitim verilerinde son derece iyi performans gösterdiği ancak yeni verilerde düşük performans gösterdiği yaygın bir sorun olan aşırı uyumu önlemektir, çünkü model temel kalıpları öğrenmek yerine esasen eğitim setini ezberlemiştir.
Bir makine öğrenimi modelinin eğitimi sırasında veri kümesi tipik olarak üç farklı alt kümeye ayrılır: eğitim verileri, doğrulama verileri ve test verileri. Eğitim verileri, modele veri içindeki kalıpları ve ilişkileri öğretmek için kullanılır. Test verileri bir kenara bırakılır ve modelin performansının nihai, tarafsız bir değerlendirmesini sağlamak için yalnızca en sonunda kullanılır. Öte yandan doğrulama verileri, model ayarlamasının yinelemeli sürecinde kritik bir rol oynar.
Her eğitim döneminden veya belirli sayıda iterasyondan sonra, modelin performansı doğrulama verileri kullanılarak değerlendirilir. Modelin ne kadar iyi genelleme yaptığını değerlendirmek için doğruluk, kesinlik, geri çağırma ve F1-skoru gibi ölçütler hesaplanır. Bu sonuçlar, modelin görünmeyen veriler üzerindeki performansını iyileştirmek için öğrenme oranı veya yığın boyutu gibi hiperparametrelerin ayarlanmasına rehberlik eder.
Her üç veri kümesi de gerekli olmakla birlikte, farklı amaçlara hizmet ederler. Eğitim verileri modeli eğitmek için kullanılır, doğrulama verileri modeli ayarlamak ve aşırı uyumu önlemek için kullanılır ve test verileri nihai, tarafsız bir performans değerlendirmesi için kullanılır. Temel fark, doğrulama verilerinin eğitim sırasında modelin gelişimini etkilemesi, test verilerinin ise etkilememesidir.
Test seti en iyi modeli seçmek veya modeli ayarlamak için tekrar tekrar kullanılırsa, esasen eğitim sürecinin bir parçası haline geldiğini ve yeni veriler üzerinde tarafsız bir performans tahmini sağlama yeteneğini kaybettiğini belirtmek önemlidir. Bu durumda, bir doğrulama seti olarak kabul edilir.
Tıbbi tanıda, doğru ve güvenilir modeller çok önemlidir. Örneğin, tıbbi görüntülerdeki tümörleri tespit etmek için bir Ultralytics YOLO modelini eğitmeyi düşünün. Eğitim verileri, tümörlerin varlığı veya yokluğu ile etiketlenmiş görüntülerden oluşacaktır. Modelin eğitim sırasındaki performansını değerlendirmek için ayrı bir etiketli görüntü kümesi olan doğrulama verileri kullanılacaktır. Geliştiriciler, doğrulama setindeki kesinlik ve geri çağırma gibi ölçütleri izleyerek, yanlış pozitifleri en aza indirirken tümörleri doğru bir şekilde tanımlamasını sağlamak için modele ince ayar yapabilirler. Bu süreç, modelin gerçek dünyadaki klinik kullanım için sağlam ve güvenilir olmasını sağlar. Sağlık hizmetlerinde Vision AI hakkında daha fazla bilgi için Ultralytics web sitesini ziyaret edin.
Sürücüsüz araçların geliştirilmesinde, doğrulama verileri güvenlik ve güvenilirliğin sağlanmasında kritik bir rol oynar. Örneğin bir model, etiketli görüntü ve videolardan oluşan geniş bir veri kümesi kullanılarak yayaları, diğer araçları ve trafik işaretlerini tespit etmek üzere eğitilebilir. Yeni, görülmemiş sürüş senaryolarından oluşan doğrulama verileri daha sonra modelin farklı ortamlara, hava koşullarına ve aydınlatma durumlarına genelleme yeteneğini değerlendirmek için kullanılır. Geliştiriciler, modeli doğrulama verileri üzerinde sürekli olarak test ederek ve parametrelerini ayarlayarak doğruluğunu ve sağlamlığını artırabilir ve sonuçta otonom araçları gerçek dünyada kullanım için daha güvenli hale getirebilir. Sürücüsüz araçlarda Vision AI hakkında daha fazla bilgi için Ultralytics web sitesini ziyaret edin.
Doğrulama verilerinin etkinliği, kalitesine ve temsil kabiliyetine bağlıdır. Modelin dağıtım sırasında karşılaşacağı gerçek dünya verilerini doğru bir şekilde yansıtmalıdır. Önyargılı veya temsili olmayan doğrulama verileri, test sırasında iyi performans gösteren ancak gerçek dünya senaryolarında başarısız olan bir modele yol açabilir. Bu nedenle, doğrulama verilerinin toplanması ve hazırlanmasında dikkatli olunmalıdır. Doğrulama setinin çeşitliliğini ve boyutunu artırmak ve modelin genelleme yeteneğini daha da geliştirmek için veri artırma gibi teknikler kullanılabilir.
Temel eğitim-doğrulama-test ayrımının ötesinde, model sağlamlığını daha da sağlamak için k-kat çapraz doğrulama gibi daha gelişmiş teknikler kullanılır. K-kat çapraz doğrulamada, eğitim verileri k alt kümeye veya kata bölünür. Model k-1 kat üzerinde eğitilir ve kalan kat üzerinde doğrulanır ve bu işlem her kat bir kez doğrulama seti olarak hizmet edecek şekilde k kez tekrarlanır. Bu yöntem, modelin farklı veri alt kümelerindeki performansının daha kapsamlı bir şekilde değerlendirilmesini sağlayarak belirli bir doğrulama kümesine aşırı uyum sağlama riskini azaltır. Ultralytics YOLO adresini kullanarak nesne algılama veri kümeleri için K-Kat Çapraz Doğrulamanın nasıl uygulanacağını öğrenin.
Makine öğrenimi kavramları ve en iyi uygulamalar hakkında daha fazla bilgi için Ultralytics Sözlük sayfasını ziyaret edin. Ayrıca Ultralytics Blogunda yapay zeka ve bilgisayarla görmenin çeşitli uygulamalarını keşfedebilirsiniz. Kendi modellerinizi eğitmek için Ultralytics HUB adresini ziyaret edin.