Glossar

Synthetische Daten

Entdecke die Macht synthetischer Daten für KI/ML! Überwinde Datenknappheit, Datenschutzprobleme und Kosten und steigere gleichzeitig das Modelltraining und die Innovation.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Synthetische Daten sind künstlich erzeugte Daten, die die statistischen Eigenschaften realer Daten imitieren und nicht direkt aus realen Ereignissen oder Messungen gewonnen werden. In den Bereichen Künstliche Intelligenz (KI) und Maschinelles Lernen (ML) sind synthetische Daten eine wichtige Alternative oder Ergänzung zu realen Trainingsdaten. Sie sind besonders wertvoll, wenn das Sammeln ausreichender realer Daten schwierig, teuer oder zeitaufwändig ist oder Bedenken hinsichtlich des Datenschutzes aufwirft. Diese künstlich erzeugten Daten helfen dabei, Modelle zu trainieren, Systeme zu testen und Szenarien zu erforschen, die in der Realität selten oder gefährlich sind.

Wie synthetische Daten erstellt werden

Synthetische Daten können je nach gewünschter Komplexität und Wiedergabetreue mit verschiedenen Techniken erzeugt werden:

  • Statistische Modellierung: Verwendung statistischer Methoden wie Stichproben aus Verteilungen, die den Eigenschaften der realen Daten entsprechen.
  • Simulation: Das Erstellen von virtuellen Umgebungen oder Modellen, um Daten auf der Grundlage von vordefinierten Regeln und Interaktionen zu generieren. Dies ist in Bereichen wie Robotik und autonome Systeme üblich. Plattformen wie NVIDIA Omniverse werden häufig zur Erstellung realistischer Simulationen verwendet.
  • Generative Modelle: Der Einsatz von Deep Learning (DL)-Techniken wie Generative Adversarial Networks (GANs) oder Variational Autoencoders (VAEs), um die zugrundeliegenden Muster von realen Daten zu lernen und neue, ähnliche Datenpunkte zu generieren. Die ursprüngliche GAN-Veröffentlichung stellte ein leistungsfähiges Rahmenwerk für diese Aufgabe vor.

Bedeutung für KI und Computer Vision

Synthetische Daten bieten mehrere Vorteile für die KI-Entwicklung:

  • Überwindung von Datenknappheit: Liefert große Datensätze, die für das Training komplexer Modelle wie Ultralytics YOLO wenn die realen Daten begrenzt sind.
  • Verbesserung des Datenschutzes: Ermöglicht das Trainieren von Modellen, ohne sensible Informationen aus der realen Welt preiszugeben, was in Bereichen wie dem Gesundheits- und Finanzwesen wichtig ist. Die Techniken können manchmal Konzepte wie den differenziellen Datenschutz beinhalten.
  • Grenzfälle abdecken: Ermöglicht die Erstellung von Daten für seltene oder kritische Szenarien (z. B. Notfallsituationen für selbstfahrende Autos), die in der realen Welt nur schwer zu erfassen sind.
  • Verringerung von Verzerrungen: Kann möglicherweise dazu beitragen, Verzerrungen in den Datensätzen zu verringern, indem ausgewogene Datensätze erstellt werden, obwohl darauf geachtet werden muss, dass keine neuen Verzerrungen entstehen.
  • Kosten- und Zeiteffizienz: Die Generierung synthetischer Daten kann schneller und kostengünstiger sein als die umfangreiche Sammlung und Beschriftung realer Daten.

In der Computer Vision werden synthetische Bilder verwendet, um Modelle für Aufgaben wie Objekterkennung und Bildsegmentierung unter verschiedenen Bedingungen (Beleuchtung, Wetter, Blickwinkel) zu trainieren.

Anwendungen in der realen Welt

  1. Autonome Fahrzeuge: Um Wahrnehmungssysteme für selbstfahrende Autos zu trainieren, werden große Datenmengen benötigt, die verschiedene Fahrbedingungen und seltene Ereignisse (wie Unfälle oder ungewöhnliche Hindernisse) abdecken. Unternehmen nutzen Simulatoren wie Unity Simulation oder proprietäre Plattformen wie die Simulationsumgebung von Waymo, um realistische synthetische Fahrdaten zu generieren und so die Robustheit und Sicherheit der Modelle für KI in der Automobilindustrie zu verbessern.
  2. Gesundheitswesen: Datenschutzbestimmungen für Patienten (wie HIPAA) schränken die Verwendung echter medizinischer Daten ein. Synthetische Daten ermöglichen es Forschern und Entwicklern, KI-Modelle für die medizinische Bildanalyse (z. B. Tumorerkennung) oder die Analyse elektronischer Krankenakten zu trainieren, ohne die Vertraulichkeit von Patienten zu gefährden. Projekte wie Synthea erstellen synthetische Patientendaten für die Forschung im Bereich KI im Gesundheitswesen.

Synthetische Daten vs. Datenerweiterung

Obwohl sowohl synthetische Daten als auch Datenerweiterung darauf abzielen, die Vielfalt und den Umfang der Trainingsdaten zu erhöhen, handelt es sich um unterschiedliche Konzepte:

  • Datenerweiterung: Die Anwendung von Transformationen (wie Drehen, Skalieren, Zuschneiden, Farbverschiebungen) auf vorhandene reale Daten, um leicht veränderte Versionen zu erstellen. Sie erweitert den Datensatz, setzt aber voraus, dass ein Anfangssatz von echten Daten vorhanden ist. Werkzeuge wie Albumentations können zu diesem Zweck integriert werden.
  • Synthetische Daten: Dabei werden völlig neue Datenpunkte von Grund auf neu erstellt, oft mit Hilfe von Modellen oder Simulationen, ohne dass unbedingt von realen Beispielen ausgegangen wird (obwohl die Modelle normalerweise zunächst auf realen Daten trainiert werden).

Synthetische Daten können Lücken schließen, die die Augmentierung nicht schließen kann, wie z. B. die Erstellung von Beispielen für völlig unbekannte Szenarien oder die Generierung von Daten, wenn reale Daten aufgrund von Datenschutzbeschränkungen nicht verfügbar oder unbrauchbar sind. Es ist jedoch eine Herausforderung, sicherzustellen, dass synthetische Daten die Komplexität der realen Welt genau widerspiegeln, was zu Problemen wie der Überanpassung an die synthetische Verteilung führen kann, wenn sie nicht sorgfältig gesteuert wird. Plattformen wie Ultralytics HUB unterstützen das Training von Modellen auf verschiedenen Datensätzen, möglicherweise auch auf synthetischen Daten.

Alles lesen