Entdecken Sie, wie synthetische Daten KI und maschinelles Lernen vorantreiben. Erfahren Sie, wie Sie hochwertige Datensätze für Ultralytics generieren können, um die Modellgenauigkeit noch heute zu verbessern.
Synthetische Daten sind künstlich generierte Informationen, die die statistischen Eigenschaften, Muster und strukturellen Merkmale realer Daten nachahmen. In den sich schnell entwickelnden Bereichen der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) dienen diese Daten als wichtige Ressource, wenn die Erfassung authentischer Daten teuer, zeitaufwendig oder durch Datenschutzbestimmungen eingeschränkt ist. Im Gegensatz zu organischen Daten, die aus realen Ereignissen gewonnen werden, werden synthetische Daten algorithmisch mithilfe von Techniken wie Computersimulationen und fortschrittlichen generativen Modellen erstellt. Bis 2030 sagenBranchenanalysten von Gartner voraus, dass synthetische Daten reale Daten in KI-Modellen in den Schatten stellen und damit die Art und Weise, wie intelligente Systeme aufgebaut und eingesetzt werden, grundlegend verändern werden.
Der Hauptgrund für die Verwendung synthetischer Datensätze ist die Überwindung der Einschränkungen, die mit der herkömmlichen Datenerfassung und -annotation verbunden sind. Das Training robuster Computer-Vision-Modelle (CV) erfordert oft riesige Datensätze, die vielfältige Szenarien enthalten. Wenn reale Daten rar sind – wie bei der Diagnose seltener Krankheiten oder gefährlichen Verkehrsunfällen in Grenzfällen – schließen synthetische Daten diese Lücke.
Durch die Generierung dieser Daten können Entwickler bei Bedarf perfekt beschriftete Trainingsdaten erstellen. Dazu gehören präzise Begrenzungsrahmen für die Objekterkennung oder pixelgenaue Masken für die semantische Segmentierung, wodurch menschliche Fehler, die bei manuellen Beschriftungsprozessen häufig auftreten, vermieden werden. Darüber hinaus werden Verzerrungen in der KI beseitigt, indem Ingenieure bewusst Datensätze mit unterrepräsentierten Gruppen oder Umweltbedingungen ausgleichen können, wodurch eine fairere Modellleistung gewährleistet wird.
Synthetische Daten revolutionieren Branchen, in denen Datenschutz, Sicherheit und Skalierbarkeit von größter Bedeutung sind.
Die Erstellung hochwertiger synthetischer Daten erfolgt häufig nach zwei Hauptansätzen: Simulations-Engines und generative KI. Simulations-Engines wie die Unity Engine verwenden 3D-Grafiken, um Szenen mit physikbasierter Beleuchtung und Texturen zu rendern. Alternativ lernen generative Modelle wie Generative Adversarial Networks (GANs) und Diffusionsmodelle die Verteilung realer Daten, um neue, fotorealistische Beispiele zu synthetisieren.
Sobald ein synthetischer Datensatz generiert wurde, kann er zum Trainieren von Hochleistungsmodellen verwendet werden. Das folgende Python
zeigt, wie ein Modell – das möglicherweise mit synthetischen Daten trainiert wurde – mithilfe der ultralytics Paket zum
Durchführen von Inferenz auf einem Bild.
from ultralytics import YOLO
# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")
# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results to verify model performance
results[0].show()
Es ist hilfreich, synthetische Daten von Datenvergrößerung zu unterscheiden, da beide Techniken darauf abzielen, Datensätze zu erweitern, aber unterschiedlich funktionieren.
Moderne Workflows auf der Ultralytics kombinieren häufig beide Ansätze: Sie verwenden synthetische Daten, um Lücken im Datensatz zu füllen, und wenden während des Trainings Datenvergrößerung an, um die Robustheit von Modellen wie YOLO26 zu maximieren.