Sentetik veri, doğrudan gerçek olaylardan veya ölçümlerden toplanmak yerine, gerçek dünya verilerinin istatistiksel özelliklerini taklit eden yapay olarak oluşturulmuş verileri ifade eder. Yapay Zeka (AI) ve Makine Öğrenimi (ML) alanlarında, sentetik veriler gerçek eğitim verilerine önemli bir alternatif veya tamamlayıcı olarak hizmet eder. Yeterli gerçek dünya verisi toplamanın zor, pahalı, zaman alıcı olduğu veya gizlilik endişelerini artırdığı durumlarda özellikle değerlidir. Yapay olarak oluşturulan bu bilgiler modellerin eğitilmesine, sistemlerin test edilmesine ve gerçekte nadir veya tehlikeli olabilecek senaryoların keşfedilmesine yardımcı olur.
Sentetik Veri Nasıl Oluşturulur?
Sentetik veriler, istenen karmaşıklık ve aslına uygunluğa bağlı olarak çeşitli teknikler kullanılarak oluşturulabilir:
- İstatistiksel Modelleme: Gerçek verilerin özelliklerine uyan dağılımlardan örnekleme gibi istatistiksel yöntemlerin kullanılması.
- Simülasyon: Önceden tanımlanmış kurallara ve etkileşimlere dayalı olarak veri üretmek için sanal ortamlar veya modeller oluşturma. Bu, robotik ve otonom sistemler gibi alanlarda yaygındır. NVIDIA Omniverse gibi platformlar genellikle gerçekçi simülasyonlar oluşturmak için kullanılır.
- Üretken Modeller: Gerçek verilerin altında yatan kalıpları öğrenmek ve yeni, benzer veri noktaları oluşturmak için Generative Adversarial Networks (GANs ) veya Variational Autoencoders (VAEs) gibi Derin Öğrenme (DL) tekniklerinin kullanılması. Orijinal GAN makalesi bunun için güçlü bir çerçeve sunmuştur.
Yapay Zeka ve Bilgisayarla Görme Alanındaki Önemi
Sentetik veriler, yapay zeka gelişimi için çeşitli avantajlar sunmaktadır:
- Veri Kıtlığının Üstesinden Gelme: gibi karmaşık modellerin eğitimi için gerekli büyük veri kümeleri sağlar. Ultralytics YOLO gerçek veriler sınırlı olduğunda.
- Veri Gizliliğini Artırmak: Sağlık ve finans gibi alanlarda çok önemli olan hassas gerçek dünya bilgilerini açığa çıkarmadan model eğitimine izin verir. Teknikler bazen Diferansiyel Gizlilik gibi kavramları da içerebilir.
- Uç Durumları Kapsama: Gerçek dünyada yakalanması zor olan nadir veya kritik senaryolar (örneğin, sürücüsüz otomobiller için acil durumlar) için veri oluşturulmasını sağlar.
- Önyargıların Azaltılması: Dengeli veri setleri oluşturarak veri seti önyargılarının azaltılmasına potansiyel olarak yardımcı olabilir, ancak yeni önyargıların ortaya çıkmamasına dikkat edilmelidir.
- Maliyet ve Zaman Verimliliği: Sentetik veri üretmek, gerçek dünyadan kapsamlı veri toplama ve açıklama yapmaktan daha hızlı ve daha ucuz olabilir.
Bilgisayarla görmede, sentetik görüntüler, farklı koşullar altında (aydınlatma, hava durumu, bakış açıları) nesne algılama ve görüntü segmentasyonu gibi görevler için modelleri eğitmek için kullanılır.
Gerçek Dünya Uygulamaları
- Otonom Araçlar: Sürücüsüz araçlar için algılama sistemlerinin eğitimi, çeşitli sürüş koşullarını ve nadir olayları (kazalar veya olağandışı engeller gibi) kapsayan büyük miktarda veri gerektirir. Şirketler, gerçekçi sentetik sürüş verileri oluşturmak için Unity Simulation gibi simülatörler veya Waymo'nun simülasyon ortamı gibi tescilli platformlar kullanarak Otomotivde Yapay Zeka için model sağlamlığını ve güvenliğini artırıyor.
- Sağlık hizmetleri: Hasta gizliliği düzenlemeleri (HIPAA gibi) gerçek tıbbi verilerin kullanımını kısıtlamaktadır. Sentetik veriler, araştırmacıların ve geliştiricilerin hasta gizliliğinden ödün vermeden tıbbi görüntü analizi (ör. tümör tespiti) veya elektronik sağlık kaydı analizi için yapay zeka modellerini eğitmelerini sağlar. Synthea gibi projeler, Sağlık Hizmetlerinde Yapay Zeka alanındaki araştırmalar için sentetik hasta kayıtları oluşturmaktadır.
Sentetik Veri ve Veri Artırma
Hem sentetik veri hem de veri artırımı eğitim verilerinin çeşitliliğini ve hacmini artırmayı amaçlasa da, bunlar farklı kavramlardır:
- Veri Büyütme: Biraz değiştirilmiş versiyonlar oluşturmak için mevcut gerçek verilere dönüşümler (döndürme, ölçekleme, kırpma, renk kaydırma gibi) uygulanmasını içerir. Veri kümesini genişletir ancak başlangıçta gerçek veri kümesine sahip olmaya dayanır. Albumentations gibi araçlar bu amaç için entegre edilebilir.
- Sentetik Veri: Gerçek örneklerden yola çıkmadan, genellikle modeller veya simülasyonlar kullanarak sıfırdan tamamen yeni veri noktaları oluşturmayı içerir (ancak modeller genellikle başlangıçta gerçek veriler üzerinde eğitilir).
Sentetik veriler, tamamen görülmemiş senaryoların örneklerini oluşturmak veya gizlilik kısıtlamaları nedeniyle gerçek verilerin tamamen mevcut olmadığı veya kullanılamadığı durumlarda veri üretmek gibi artırmanın yapamayacağı boşlukları giderebilir. Bununla birlikte, sentetik verilerin gerçek dünyadaki karmaşıklığı doğru bir şekilde yansıtmasını sağlamak, dikkatli bir şekilde yönetilmezse sentetik dağılıma aşırı uyum gibi sorunlara yol açabilecek bir zorluk olmaya devam etmektedir. Ultralytics HUB gibi platformlar, potansiyel olarak sentetik olanlar da dahil olmak üzere çeşitli veri kümeleri üzerinde eğitim modellerini destekler.