Veri Kayması
Veri sapmasının ML modelinin doğruluğu üzerindeki etkisini keşfedin. Ultralytics ve sağlam MLOps için Ultralytics kullanarak sapmaları nasıl detect azaltabileceğinizi öğrenin.
Veri sapması,
makine öğreniminde (ML), üretim ortamında gözlemlenen girdi verilerinin istatistiksel
özelliklerinin, modeli oluşturmak için başlangıçta kullanılan
eğitim verilerine kıyasla zaman içinde değişmesi durumunu ifade eder.
Bir model devreye alındığında, karşılaştığı gerçek dünya verilerinin, modelin öğrendiği geçmiş verilere
temel olarak benzeyeceği varsayımıyla çalışır. Bu varsayım, değişen
çevresel koşullar veya kullanıcı davranışları nedeniyle ihlal edildiğinde, modelin
doğruluğu ve güvenilirliği, modelin kodu ve parametreleri değişmemiş olsa bile
önemli ölçüde düşebilir. Veri sapmasını tespit etmek ve yönetmek,
Makine Öğrenimi Operasyonlarının (MLOps) kritik bir bileşenidir ve AI sistemlerinin model dağıtımından sonra da değer sağlamaya devam etmesini
sağlar.
Veri Kayması ve Kavram Kayması
AI sistemlerini etkili bir şekilde korumak için, veri sapmasını yakından ilişkili bir terim olan kavram sapmasından ayırmak gerekir.
Her ikisi de performans düşüşüne neden olur, ancak farklı çevresel değişikliklerden kaynaklanır.
-
Veri Sapması (Kovaryans Değişimi): Bu, girdi özelliklerinin dağılımı değiştiğinde, ancak
girdiler ve hedef çıktı arasındaki ilişki sabit kaldığında meydana gelir. Örneğin,
bilgisayar görme (CV) alanında, bir model gün içinde çekilen görüntülerle
eğitilebilir. Kamera alacakaranlıkta görüntü almaya başlarsa, girdi dağılımı (ışıklandırma,
gölgeler) kaymış olur, ancak "araba" veya "yaya" tanımları aynı kalır.
-
Kavram Kayması: Bu, girdi özellikleri ile hedef değişken arasındaki istatistiksel ilişki değiştiğinde meydana gelir.
Diğer bir deyişle, temel gerçeğin tanımı gelişir. Örneğin,
finansal dolandırıcılık tespitinde,
dolandırıcılık faaliyetlerini oluşturan kalıplar, dolandırıcıların taktiklerini uyarlayarak güvenli ve dolandırıcılık içeren işlemler arasındaki sınırı değiştirdikçe sıklıkla değişir.
Gerçek Dünya Uygulamaları ve Örnekleri
Veri sapması,
Yapay Zeka'nın (AI) dinamik, fiziksel ortamlarla etkileşime girdiği
tüm sektörlerde yaygın bir sorundur.
-
Otonom Sistemler: Otonom araçlar alanında,
algılama modelleri güvenli bir şekilde
seyir için nesne algılamaya dayanır. Öncelikle güneşli Kaliforniya yollarından elde edilen verilerle eğitilmiş bir model,
yoğun kar yağışının olduğu bir bölgede kullanıldığında ciddi veri sapması yaşayabilir. Görsel girdiler (karla kaplı şeritler, görünmeyen işaretler) eğitim setinden büyük ölçüde farklıdır ve
şerit algılama gibi güvenlik özelliklerini
tehlikeye atabilir.
-
Sağlık Görüntüleme:
Tıbbi görüntü analiz sistemleri, hastaneler donanımlarını yenilediğinde
sapma yaşayabilir. Bir model, belirli bir tarayıcı üreticisinin
X-ışınları üzerinde eğitilmişse, farklı çözünürlük veya kontrast ayarlarına sahip yeni bir makinenin kullanıma girmesi,
veri dağılımında bir değişiklik anlamına gelir.
Model bakımı yapılmazsa,
tanı performansı düşebilir.
Tespit ve Azaltma Stratejileri
Sapmayı erken tespit etmek, modelin kendinden emin ancak yanlış tahminlerde bulunduğu "sessiz arızaları" önler.
Ekipler, bu anormallikleri iş sonuçlarını etkilemeden önce tespit etmek için çeşitli stratejiler kullanır.
Algılama Yöntemleri
-
İstatistiksel Testler: Mühendisler genellikle
Kolmogorov-Smirnovtesti
gibi yöntemleri kullanarak gelen üretim verilerinin dağılımını eğitim temel referansıyla matematiksel olarak karşılaştırırlar.
-
Performans İzleme:
Hassasiyet ve
geri çağırma gibi metrikleri gerçek zamanlı olarak izlemek, sapma
tespiti için bir vekil görevi görebilir. Bir
YOLO26 modelinin ortalama güven puanındaki ani bir düşüş, genellikle modelin yeni veri modellerinde
zorlandığını gösterir.
-
Görselleştirme:
TensorBoard gibi araçlar veya
Grafana gibi özel platformlar, ekiplerin özellik dağılımlarının histogramlarını görselleştirmelerine olanak tanıyarak,
değişiklikleri görsel olarak tespit etmeyi kolaylaştırır.
Hafifletme Teknikleri
-
Yeniden eğitim: En sağlam çözüm genellikle modeli yeniden eğitmektir. Bu,
yeni, sapmış verileri toplamayı, bunları açıklama eklemeyi ve orijinal
veri setiyle birleştirmeyi içerir.
Ultralytics , veri seti yönetimi ve bulut eğitimi için araçlar sağlayarak bu süreci basitleştirir.
Ultralytics , veri seti yönetimi ve bulut eğitimi için araçlar sağlayarak bu süreci basitleştirir.
-
Veri Artırma: İlk eğitim sırasında kapsamlı
veri artırma uygulamak (parlaklığı değiştirmek, gürültü eklemek veya görüntüleri döndürmek gibi) modeli küçük
çevresel değişikliklere karşı daha dayanıklı hale getirebilir.
-
Etki Alanı Uyarlama: Transfer öğrenimindeki teknikler, modellerin daha az miktarda etiketli veri kullanarak yeni bir hedef etki alanına uyum sağlamasına olanak tanır ve kaynak eğitim ortamı ile yeni üretim gerçekliği arasındaki boşluğu doldurur.
Modelinizin tahminlerinin güvenilirliğini kontrol ederek temel sapma izleme uygulayabilirsiniz. Ortalama
güvenilirlik sürekli olarak güvenilir eşiğin altına düşerse, veri incelemesi için bir uyarı tetiklenebilir.
from ultralytics import YOLO
# Load the official YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on a new image from the production stream
results = model("https://ultralytics.com/images/bus.jpg")
# Monitor confidence scores; consistently low scores may signal data drift
for result in results:
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")
Veri sapmasını yönetmek tek seferlik bir çözüm değil, sürekli bir yaşam döngüsü sürecidir. Bulut sağlayıcıları, bunu otomatikleştirmek için AWS SageMaker Model Monitor veya Google Vertex AI gibi yönetilen hizmetler sunar.
Bu değişiklikleri proaktif olarak izleyerek, kuruluşlar modellerinin sağlam kalmasını sağlar ve yüksek
AI güvenliği ve operasyonel verimlilik standartlarını korur.
Veri sapması, veri akışındaki değişiklikler nedeniyle ortaya çıkar. Bu değişiklikler, veri toplama sürecinde, veri işleme aşamasında veya veri depolama sırasında meydana gelebilir. Veri sapması, veri akışındaki değişiklikler nedeniyle ortaya çıkar. Bu değişiklikler, veri toplama sürecinde, veri işleme aşamasında veya veri depolama sırasında meydana gelebilir. Veri sapması, veri akışındaki değişiklikler nedeniyle ortaya çıkar. Bu değişiklikler, veri toplama sürecinde, veri işleme aşamasında veya veri depolama sırasında meydana gelebilir. Veri sapması, veri akışındaki değişiklikler nedeniyle ortaya çıkar. Bu değişiklikler, veri toplama sürecinde, veri işleme aşamas