Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Synthetische Daten

Entdecken Sie, wie synthetische Daten KI und maschinelles Lernen vorantreiben. Erfahren Sie, wie Sie hochwertige Datensätze für Ultralytics generieren können, um die Modellgenauigkeit noch heute zu verbessern.

Synthetische Daten sind künstlich generierte Informationen, die die statistischen Eigenschaften, Muster und strukturellen Merkmale realer Daten nachahmen. In den sich schnell entwickelnden Bereichen der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) dienen diese Daten als wichtige Ressource, wenn die Erfassung authentischer Daten teuer, zeitaufwendig oder durch Datenschutzbestimmungen eingeschränkt ist. Im Gegensatz zu organischen Daten, die aus realen Ereignissen gewonnen werden, werden synthetische Daten algorithmisch mithilfe von Techniken wie Computersimulationen und fortschrittlichen generativen Modellen erstellt. Bis 2030 sagenBranchenanalysten von Gartner voraus, dass synthetische Daten reale Daten in KI-Modellen in den Schatten stellen und damit die Art und Weise, wie intelligente Systeme aufgebaut und eingesetzt werden, grundlegend verändern werden.

Die Rolle synthetischer Daten in der KI-Entwicklung

Der Hauptgrund für die Verwendung synthetischer Datensätze ist die Überwindung der Einschränkungen, die mit der herkömmlichen Datenerfassung und -annotation verbunden sind. Das Training robuster Computer-Vision-Modelle (CV) erfordert oft riesige Datensätze, die vielfältige Szenarien enthalten. Wenn reale Daten rar sind – wie bei der Diagnose seltener Krankheiten oder gefährlichen Verkehrsunfällen in Grenzfällen – schließen synthetische Daten diese Lücke.

Durch die Generierung dieser Daten können Entwickler bei Bedarf perfekt beschriftete Trainingsdaten erstellen. Dazu gehören präzise Begrenzungsrahmen für die Objekterkennung oder pixelgenaue Masken für die semantische Segmentierung, wodurch menschliche Fehler, die bei manuellen Beschriftungsprozessen häufig auftreten, vermieden werden. Darüber hinaus werden Verzerrungen in der KI beseitigt, indem Ingenieure bewusst Datensätze mit unterrepräsentierten Gruppen oder Umweltbedingungen ausgleichen können, wodurch eine fairere Modellleistung gewährleistet wird.

Anwendungsfälle in der Praxis

Synthetische Daten revolutionieren Branchen, in denen Datenschutz, Sicherheit und Skalierbarkeit von größter Bedeutung sind.

  • Autonome Fahrsimulationen: Das Testen autonomer Fahrzeuge ausschließlich in der physischen Welt ist riskant und geografisch begrenzt. Unternehmen nutzen fotorealistische Simulatoren wie NVIDIA , um ihre Wahrnehmungssysteme zu trainieren. Diese Simulatoren generieren Milliarden von virtuellen Kilometern und setzen die KI gefährlichen Wetterbedingungen, unberechenbarem Fußgängerverhalten und komplexen städtischen Strukturen aus, die in der realen Welt nur schwer konsistent erfasst werden können.
  • Gesundheitswesen und medizinische Bildgebung: Gesetze zum Schutz der Privatsphäre von Patienten wie HIPAA und DSGVO regeln die Weitergabe von Krankenakten streng. Synthetische Daten ermöglichen die Erstellung realistischer Datensätze für die medizinische Bildanalyse – wie Röntgenbilder oder MRT-Scans –, die die Marker der Pathologie beibehalten, ohne personenbezogene Daten zu enthalten. Dies ermöglicht es Forschern, Modelle zur Tumordiagnose gemeinsam zu trainieren, ohne die Vertraulichkeit der Patienten zu gefährden.

Erzeugung synthetischer Daten für Vision-KI

Die Erstellung hochwertiger synthetischer Daten erfolgt häufig nach zwei Hauptansätzen: Simulations-Engines und generative KI. Simulations-Engines wie die Unity Engine verwenden 3D-Grafiken, um Szenen mit physikbasierter Beleuchtung und Texturen zu rendern. Alternativ lernen generative Modelle wie Generative Adversarial Networks (GANs) und Diffusionsmodelle die Verteilung realer Daten, um neue, fotorealistische Beispiele zu synthetisieren.

Sobald ein synthetischer Datensatz generiert wurde, kann er zum Trainieren von Hochleistungsmodellen verwendet werden. Das folgende Python zeigt, wie ein Modell – das möglicherweise mit synthetischen Daten trainiert wurde – mithilfe der ultralytics Paket zum Durchführen von Inferenz auf einem Bild.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")

# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify model performance
results[0].show()

Synthetische Daten vs. Datenerweiterung

Es ist hilfreich, synthetische Daten von Datenvergrößerung zu unterscheiden, da beide Techniken darauf abzielen, Datensätze zu erweitern, aber unterschiedlich funktionieren.

  • Die Datenvergrößerung umfasst die Anwendung von Transformationen – wie Spiegelung, Drehung, Zuschneiden oder Farbanpassung – auf vorhandene reale Bilder, um geringfügige Abweichungen zu erzeugen. Sie stützt sich auf die ursprüngliche Datenquelle .
  • Bei synthetischen Daten werden mithilfe von Algorithmen oder Simulationen völlig neue Dateninstanzen von Grund auf neu erstellt. Es ist nicht unbedingt erforderlich, dass für jede Ausgabe ein Originalbild vorliegt, sodass auch Szenarien generiert werden können, die noch nie von einer Kamera aufgenommen wurden.

Moderne Workflows auf der Ultralytics kombinieren häufig beide Ansätze: Sie verwenden synthetische Daten, um Lücken im Datensatz zu füllen, und wenden während des Trainings Datenvergrößerung an, um die Robustheit von Modellen wie YOLO26 zu maximieren.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten