Glossar

Trainingsdaten

Entdecke die Bedeutung von Trainingsdaten in der KI. Erfahre, wie hochwertige Datensätze genaue, robuste Machine-Learning-Modelle für reale Aufgaben ermöglichen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens sind Trainingsdaten der wichtigste Bestandteil, um den Modellen beizubringen, wie sie Aufgaben erfüllen können. Sie bestehen aus einem Datensatz mit zahlreichen Beispielen, bei denen jedes Beispiel eine Eingabe mit der gewünschten Ausgabe oder Bezeichnung verbindet. Durch die Verarbeitung dieser Daten, in der Regel mit Hilfe von Algorithmen des überwachten Lernens, lernt das Modell, Muster, Beziehungen und Merkmale zu erkennen, die es ihm ermöglichen, Vorhersagen oder Entscheidungen über neue, ungesehene Daten zu treffen.

Was sind Trainingsdaten?

Trainingsdaten sind das Lernmaterial für ein KI-Modell. Es handelt sich dabei um eine kuratierte Sammlung von Informationen, die so formatiert sind, dass sie als Beispiele für den Lernprozess dienen. Bei Computer-Vision-Aufgaben wie der Objekterkennung bestehen die Trainingsdaten beispielsweise aus Bildern oder Videobildern(Input Features) und Anmerkungen, die den Ort und die Klasse der Objekte in den Bildern angeben (Labels). Der Prozess der Erstellung dieser Labels wird als Data Labeling bezeichnet. Das Modell passt seine internen Parameter auf der Grundlage dieser Daten iterativ an, um die Differenz zwischen seinen Vorhersagen und den bereitgestellten Labels zu minimieren.

Die Bedeutung von Trainingsdaten

Die Qualität, Quantität und Vielfalt der Trainingsdaten bestimmen direkt die Leistung eines Modells und seine Fähigkeit, auf reale Szenarien zu verallgemeinern(Generalisierung in ML). Qualitativ hochwertige, repräsentative Daten helfen dabei, Modelle zu erstellen, die robust sind und eine hohe Genauigkeit erreichen. Unzureichende oder voreingenommene Daten können zu schlechter Leistung, Überanpassung (wenn das Modell die Trainingsdaten zu gut lernt, aber bei neuen Daten versagt) oder unfairen Ergebnissen aufgrund von Dataset Bias führen. Daher ist die sorgfältige Sammlung und Aufbereitung von Trainingsdaten ein wichtiger Schritt in jedem KI-Projekt.

Beispiele für Trainingsdaten in realen Anwendungen

Trainingsdaten sind die Grundlage für unzählige KI-Anwendungen. Hier sind zwei Beispiele:

  1. Autonome Fahrzeuge: Modelle wie Ultralytics YOLO die in der KI für selbstfahrende Autos eingesetzt werden, werden auf riesigen Datensätzen mit Bildern und Sensordaten aus verschiedenen Fahrsituationen trainiert. Diese Daten werden sorgfältig mit Bounding Boxes oder Segmentierungsmasken für Objekte wie Fahrzeuge, Fußgänger, Radfahrer und Verkehrssignale beschriftet, wobei oft große öffentliche Datensätze wie der COCO-Datensatz verwendet werden.
  2. Natürliche Sprachverarbeitung: Bei Aufgaben wie der Stimmungsanalyse (Wikipedia) bestehen die Trainingsdaten aus Textproben (z. B. Produktbewertungen, Beiträge in sozialen Medien), die mit Stimmungen wie "positiv", "negativ" oder "neutral" gekennzeichnet sind. Das Modell lernt, Sprachmuster mit diesen Gefühlsbezeichnungen zu verknüpfen.

Datenqualität und -aufbereitung

Um qualitativ hochwertige Ausbildungsdaten zu erhalten, sind mehrere wichtige Prozesse erforderlich:

  • Datenerhebung: Sammeln von relevanten Daten, die den Problembereich genau widerspiegeln.
  • Datenbereinigung (Wikipedia): Das Erkennen und Korrigieren von Fehlern, Inkonsistenzen oder fehlenden Werten im Datensatz.
  • Datenbeschriftung: Genaue Beschriftung der Daten mit den richtigen Ergebnissen oder Zielen.
  • Datenerweiterung: Künstliche Erweiterung des Datensatzes durch die Erstellung modifizierter Kopien bestehender Daten (z. B. Drehen von Bildern, Änderung der Helligkeit), um die Robustheit des Modells zu verbessern.

Trainingsdaten vs. Validierungs- und Testdaten

Obwohl diese Datensätze oft zusammen diskutiert werden, dienen sie unterschiedlichen Zwecken:

  • Trainingsdaten: Sie werden verwendet, um das Modell zu trainieren, indem seine Parameter (Gewichte) angepasst werden.
  • Validierungsdaten: Werden in regelmäßigen Abständen während des Trainings verwendet, um die Leistung des Modells bei ungesehenen Daten zu bewerten und die Hyperparameter zu optimieren(Hyperparameter-Optimierung (Wikipedia)), ohne dass es zu Verzerrungen durch die Testmenge kommt.
  • Testdaten: Werden erst nach Abschluss des Modelltrainings verwendet, um eine endgültige, unvoreingenommene Bewertung der Leistung des Modells auf völlig neuen Daten zu erhalten.

Die korrekte Trennung dieser Datensätze ist entscheidend für die Entwicklung zuverlässiger Modelle und die genaue Bewertung ihrer Fähigkeiten in der Realität. Plattformen wie Ultralytics HUB helfen dabei, diese Datensätze während des Lebenszyklus der Modellentwicklung effektiv zu verwalten.

Alles lesen