Sözlük

Veri Etiketleme

Makine öğreniminde veri etiketlemenin kritik rolünü, sürecini, zorluklarını ve yapay zeka geliştirmedeki gerçek dünya uygulamalarını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Veri etiketleme; resim, video, metin veya ses gibi ham verilere bilgilendirici etiketler veya ek açıklamalar ekleme işlemidir. Bu etiketler bağlam sağlayarak Makine Öğrenimi (ML) modellerinin verileri doğru bir şekilde anlamasını ve yorumlamasını sağlar. Denetimli Öğrenmede etiketli veriler, modellerin kalıpları belirlemek ve gelecek tahminleri yapmak için öğrendikleri doğrulanmış doğru yanıtlar olan "temel gerçek" olarak işlev görür. Bu etiketlerin kalitesi ve doğruluğu model performansını doğrudan etkiler ve veri etiketlemeyi, özellikle Bilgisayarla Görme (CV) gibi alanlarda güvenilir Yapay Zeka (AI) sistemleri oluşturmada temel bir adım haline getirir.

Veri Etiketlemenin Önemi

Yüksek kaliteli etiketli veriler, başarılı makine öğrenimi projelerinin temelini oluşturur. Gibi modeller Ultralytics YOLO etkili eğitim için büyük ölçüde doğru etiketlenmiş veri kümelerine bağlıdır. Tutarsız veya yanlış etiketler, gerçek dünya senaryolarında kötü performans gösteren ve güvenilir olmayan tahminler yapan modellere yol açabilir. Etiketlemeyi de içeren veri hazırlama, genellikle yapay zeka projelerine harcanan zamanın önemli bir bölümünü oluşturur ve kritik rolünün altını çizer. Anaconda State of Data Science raporu gibi bazı raporlar, veri hazırlamanın veri bilimcilerin zamanının büyük bir bölümünü aldığını göstermektedir.

Veri Etiketleme Süreci

Veri etiketleme süreci tipik olarak birkaç aşamadan oluşur:

  1. Veri Toplama: Etiketlenmesi gereken ham verilerin (görüntüler, videolar vb.) toplanması.
  2. Kılavuz Tanımı: Tutarlılığı sağlamak için etiketlerin nasıl uygulanması gerektiğine dair açık talimatlar ve standartlar oluşturulması.
  3. Açıklama: Özel araçlar kullanılarak tanımlanan yönergelere göre verilere etiketlerin uygulanması. Bu genellikle veri açıklaması olarak adlandırılır.
  4. Kalite Güvencesi (QA): Doğruluğu, tutarlılığı ve kılavuzlara uygunluğu doğrulamak için etiketlenmiş verilerin gözden geçirilmesi.

Pratik adımları daha derinlemesine incelemek için Ultralytics Veri Toplama ve Açıklama Kılavuzu'na bakın.

Bilgisayarlı Görüde Veri Etiketleme Türleri

Farklı CV görevleri farklı türde etiketler gerektirir:

  • Sınırlayıcı Kutular: Nesne Algılama için ilgilenilen nesnelerin etrafına dikdörtgenler çizme.
  • Çokgenler/Maskeler: Görüntü Segmentasyonu için piksel seviyesinde nesnelerin tam şeklini belirleme.
  • Anahtar Noktalar: Poz Tahmini için bir nesne üzerindeki belirli noktaların (örneğin, insan vücudundaki eklemler) işaretlenmesi.
  • Sınıflandırma Etiketleri: İçeriğini kategorize etmek için bir görüntünün tamamına tek bir etiket atama.

Uygulamalar ve Gerçek Dünya Örnekleri

Veri etiketleme, çeşitli sektörlerde çok sayıda yapay zeka uygulamasını desteklemektedir:

  • Sağlık Hizmetleri: Hastalıkları veya anomalileri tespit eden modelleri eğitmek için tıbbi görüntüleri ( Kanser Görüntüleme Arşivi (TCIA) gibi kaynaklardan alınan X ışınları veya MRI'lar gibi) etiketleme. Sağlık Hizmetlerinde Yapay Zeka bölümünde daha fazlasını görün.
  • Otonom Araçlar: Sürücüsüz araçlara yayaları, araçları ve trafik işaretlerini algılamayı öğretmek için Waymo Açık Veri Seti gibi veri kümelerinden sensör verilerine (kamera görüntüleri, LiDAR nokta bulutları) açıklama ekleme. Otomotivde Yapay Zekayı Keşfedin.
  • Perakende: Envanter yönetimini otomatikleştirmek veya müşteri davranışını analiz etmek için raflardaki ürünleri görüntülerle etiketleme.
  • Tarım: Sağlığı izlemek, hastalıkları tespit etmek veya verimi tahmin etmek için mahsullerin görüntülerini etiketleme.

İlgili Kavramlar

Veri etiketleme, diğer temel makine öğrenimi kavramlarıyla yakından bağlantılıdır:

  • Veri Büyütme: Mevcut verilere dönüşümler (döndürme veya parlaklık değişiklikleri gibi) uygulayarak etiketli bir veri kümesinin boyutunu ve çeşitliliğini yapay olarak artırmak için kullanılan teknikler. Daha fazla ayrıntı için bu veri büyütmeye genel bakış bölümüne bakabilirsiniz.
  • Veri Ön İşleme: Etiketlenmeden veya eğitim için kullanılmadan önce ham verileri temizlemek, biçimlendirmek ve hazırlamak için atılan adımlar.
  • Denetimli Öğrenme: Modelleri eğitmek için etiketli verilere dayanan makine öğrenimi paradigması, denetimsiz veya pekiştirmeli öğrenmenin aksine. Wikipedia'nın Denetimli öğrenme sayfasında bu konuda daha fazla bilgi edinebilirsiniz.

Veri Etiketlemede Karşılaşılan Zorluklar

Önemine rağmen, veri etiketleme zorlukları da beraberinde getirmektedir:

  • Maliyet ve Zaman: Büyük veri kümelerini etiketlemek pahalı ve zaman alıcı olabilir, genellikle önemli ölçüde insan çabası gerektirir.
  • Kalite Kontrol: Etiketler arasında yüksek doğruluk ve tutarlılık sağlamak zordur ancak model performansı için çok önemlidir. Yüksek veri kalitesini korumak çok önemlidir.
  • Öznellik: Bazı görevler öznel yargılar gerektirir ve etiketleyiciler arasında potansiyel tutarsızlıklara yol açar.
  • Ölçeklenebilirlik: Çok büyük veri kümeleri için etiketleme işlemlerini yönetmek ve ölçeklendirmek karmaşık olabilir.

Aktif Öğrenme gibi teknikler, ilk olarak etiketlenecek en bilgilendirici veri noktalarını akıllıca seçerek etiketleme yükünü azaltmayı amaçlar ve Wikipedia'nın Aktif öğrenme sayfasında açıklandığı gibi potansiyel olarak toplam çabayı azaltır.

Araçlar ve Platformlar

Çeşitli araçlar veri etiketleme sürecini kolaylaştırmaya yardımcı olur. Ultralytics HUB, bilgisayarla görme görevleri için tasarlanmış entegre veri kümesi yönetimi ve etiketleme özellikleri sunar. Diğer popüler açık kaynaklı ve ticari platformlar arasında Label Studio ve CVAT (Computer Vision Annotation Tool) bulunmaktadır.

Tümünü okuyun