F1-Skoru, ikili sınıflandırma modellerinin performansını değerlendirmek için makine öğrenimi (ML) ve bilgi erişiminde yaygın olarak kullanılan bir metriktir. Diğer iki önemli ölçütü dengeleyen tek bir puan sağlar: hassasiyet ve geri çağırma. Bu denge, F1-Skorunu özellikle sınıf dağılımının eşit olmadığı (dengesiz veri kümeleri) veya hem yanlış pozitiflerin hem de yanlış negatiflerin önemli maliyetler taşıdığı durumlarda değerli kılar. Hassasiyet ve geri çağırmanın harmonik ortalaması olarak hesaplanır ve 0 ile 1 arasında bir aralık verir; burada 1 mükemmel hassasiyet ve geri çağırma anlamına gelir.
Kesinlik ve Geri Çağrılmayı Anlama
F1-Skorunu kavramak için bileşenlerini anlamak çok önemlidir:
- Kesinlik: Pozitif tahminlerin doğruluğunu ölçer. Şu soruya cevap verir: "Modelin pozitif olarak tahmin ettiği tüm örneklerden kaç tanesi gerçekten pozitifti?" Yüksek hassasiyet, modelin az sayıda yanlış pozitif hata yaptığı anlamına gelir.
- Geri Çağırma (Hassasiyet): Modelin tüm gerçek pozitif örnekleri belirleme kabiliyetini ölçer. Şu soruya cevap verir: "Tüm gerçek pozitif örneklerden kaç tanesini model doğru bir şekilde tanımladı?" Yüksek geri çağırma, modelin az sayıda yanlış negatif hata yaptığı anlamına gelir.
F1-Skoru bu ikisini harmonik ortalamalarını hesaplayarak birleştirir. Basit bir ortalamanın aksine, harmonik ortalama aşırı değerleri daha ağır bir şekilde cezalandırır, yani bir modelin yüksek bir F1-Skoru elde etmek için hem hassasiyet hem de geri çağırma konusunda makul derecede iyi performans göstermesi gerekir.
F1-Skoru Neden Kullanılır?
Doğruluk (genel olarak doğru tahminlerin oranı) yaygın bir ölçüt olsa da, özellikle dengesiz veri kümelerinde yanıltıcı olabilir. Örneğin, veri noktalarının yalnızca %1'i pozitif sınıfa aitse, her şeyi negatif olarak tahmin eden bir model %99 doğruluk elde eder ancak pozitif sınıfı tanımlamada tamamen başarısız olur.
F1-Skoru, kesinlik ve geri çağırma yoluyla pozitif sınıf performansına odaklanarak bunu ele alır. Şu durumlarda tercih edilir:
- Sınıf Dengesizliği Mevcuttur: Bir sınıf diğerinden çok daha fazla olduğunda doğruluktan daha iyi bir değerlendirme sağlar.
- Hem Yanlış Pozitifler hem de Yanlış Negatifler Önemlidir: Her iki hata türünü de en aza indirmenin çok önemli olduğu senaryolar F1-Skoru'nun dengeleme özelliğinden faydalanır. Hassasiyet veya geri çağırma için optimizasyon arasında seçim yapmak genellikle bir ödünleşim içerir; F1-Skoru bu hassasiyet-geri çağırma ödünleşimini dengeleyen bir model bulmaya yardımcı olur.
F1-Score İş Başında: Gerçek Dünyadan Örnekler
F1-Skoru, çeşitli Yapay Zeka (AI) uygulamalarında kritik öneme sahiptir:
Hastalık Tespiti için Tıbbi Görüntü Analizi: Bilgisayar görüşü (CV) kullanarak taramalardan kanserli tümörleri tespit etmek için tasarlanmış bir yapay zeka modeli düşünün.
- Yanlış negatif (düşük hatırlama), kanser mevcutken tespit edilememesi anlamına gelir ve bu durum hasta için ciddi sonuçlar doğurabilir.
- Yanlış pozitif (düşük hassasiyet), kanser yokken teşhis edilmesi anlamına gelir ve gereksiz stres, maliyet ve daha fazla invaziv teste yol açar.
- F1-Skoru, gerçek vakaları yakalama (geri çağırma) ve yanlış teşhislerden kaçınma (hassasiyet) arasında bir denge sağlayarak yapay zeka sağlık çözümlerinde kullanılanlar gibi modellerin değerlendirilmesine yardımcı olur. Bu tür modellerin eğitimi, Beyin Tümörü tespit veri kümesi gibi veri kümelerini içerebilir.
Spam E-posta Filtreleme: E-posta hizmetleri spam'i tanımlamak için sınıflandırma modelleri kullanır.
- Mümkün olduğunca çok spam yakalamak için yüksek geri çağırma gereklidir. Eksik spam (yanlış negatif) kullanıcıları rahatsız eder.
- Meşru e-postaların ("ham") spam (yanlış pozitif) olarak işaretlenmesini önlemek için yüksek hassasiyet çok önemlidir. Önemli bir e-postanın yanlış sınıflandırılması son derece sorunlu olabilir.
- F1-Skoru, spam filtresinin genel etkinliğini değerlendirmek için uygun bir ölçü sağlar ve önemli mesajları kaybetmeden gereksiz mesajları filtreleme ihtiyacını dengeler. Bu, Doğal Dil İşleme (NLP) tekniklerini içerir.
F1-Skoru ve İlgili Metrikler
F1-Skorunu diğer değerlendirme metriklerinden ayırmak önemlidir:
- Doğruluk: Genel doğruluğu ölçer ancak dengesiz sınıflar için güvenilmez olabilir.
- Kesinlik ve Geri Çağırma: F1-Skoru bunları birleştirir. Yanlış pozitifleri en aza indirmek önemli olduğunda hassasiyeti kullanın; yanlış negatifleri en aza indirmek çok önemli olduğunda geri çağırmayı kullanın.
- Ortalama Ortalama Hassasiyet (mAP): tarafından gerçekleştirilenler gibi nesne algılama görevleri için birincil bir metrik Ultralytics YOLO mAP, çeşitli geri çağırma seviyelerinde ve genellikle birden fazla nesne sınıfında ve Birlik üzerinde Kesişim (IoU) eşiklerinde hassasiyetin ortalamasını alır. Hassasiyet ve geri çağırma ile ilgili olsa da mAP, hem sınıflandırma hem de yerelleştirmeyi göz önünde bulundurarak nesne algılama performansını özellikle değerlendirir. Daha fazla ayrıntı için YOLO performans metriklerini inceleyebilirsiniz. Genellikle mAP'ye dayanan YOLO11 ve YOLOv8 gibi model karşılaştırmalarına bakın.
- Birlik üzerinde Kesişim (IoU): Nesne algılamada tahmin edilen sınırlayıcı kutu ile temel gerçek sınırlayıcı kutu arasındaki örtüşmeyi ölçer. F1-Skor gibi doğrudan sınıflandırma performansını değil, yerelleştirme kalitesini değerlendirir.
- Karışıklık Matrisi: Sınıflandırma performansını özetleyen, Doğru Pozitifleri, Doğru Negatifleri, Yanlış Pozitifleri ve Yanlış Negatifleri gösteren, Kesinlik, Geri Çağırma, Doğruluk ve F1-Skorunun türetildiği bir tablo.
Ultralytics Ekosisteminde F1-Skoru
Ultralytics ekosisteminde, mAP aşağıdaki gibi nesne algılama modellerini değerlendirmek için standart iken YOLO11F1-Skoru, sınıflandırma görevi yeteneklerini değerlendirirken veya özellikle sınıf dengesizliği söz konusuysa, bir algılama veya segmentasyon problemi içindeki belirli bir sınıf üzerindeki performansı değerlendirirken ilgili olabilir. Ultralytics HUB gibi araçlar, özel modellerin eğitilmesini ve model değerlendirmesi sırasında çeşitli performans metriklerinin izlenmesini kolaylaştırır. F1-Skor gibi metriklerin anlaşılması, hiperparametre ayarı gibi teknikler kullanılarak belirli ihtiyaçlar için modellerde ince ayar yapılmasına yardımcı olur. Gibi çerçeveler PyTorch ve Scikit-learn gibi kütüphaneler F1-Skorunu hesaplamak için uygulamalar sağlar.