Glossar

Datenbeschriftung

Entdecke die entscheidende Rolle der Datenbeschriftung beim maschinellen Lernen, den Prozess, die Herausforderungen und die realen Anwendungen in der KI-Entwicklung.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Bei der Datenkennzeichnung werden Rohdaten wie Bilder, Videos, Texte oder Audiodaten mit informativen Tags oder Kommentaren versehen. Diese Beschriftungen liefern den Kontext, der es den Modellen des maschinellen Lernens (ML) ermöglicht, die Daten genau zu verstehen und zu interpretieren. Beim überwachten Lernen dienen die beschrifteten Daten als "Grundwahrheit", d. h. als verifizierte richtige Antworten, aus denen die Modelle lernen, um Muster zu erkennen und zukünftige Vorhersagen zu treffen. Die Qualität und Genauigkeit dieser Beschriftungen haben einen direkten Einfluss auf die Leistung des Modells. Daher ist die Datenbeschriftung ein grundlegender Schritt beim Aufbau zuverlässiger Systeme der Künstlichen Intelligenz (KI), insbesondere in Bereichen wie Computer Vision (CV).

Die Bedeutung der Datenkennzeichnung

Qualitativ hochwertige gelabelte Daten sind die Grundlage für erfolgreiche ML-Projekte. Modelle wie Ultralytics YOLO sind für ein effektives Training stark auf genau beschriftete Datensätze angewiesen. Inkonsistente oder falsche Beschriftungen können dazu führen, dass Modelle schlecht funktionieren und in realen Szenarien unzuverlässige Vorhersagen machen. Die Datenaufbereitung, zu der auch die Beschriftung gehört, macht oft einen erheblichen Teil der Zeit aus, die in KI-Projekte investiert wird, was ihre entscheidende Rolle unterstreicht. Aus einigen Berichten, wie dem Anaconda State of Data Science Report, geht hervor, dass die Datenvorbereitung einen großen Teil der Zeit von Datenwissenschaftlern in Anspruch nimmt.

Der Prozess der Datenkennzeichnung

Der Prozess der Kennzeichnung von Daten umfasst in der Regel mehrere Schritte:

  1. Datenerfassung: Sammeln der Rohdaten (Bilder, Videos, etc.), die beschriftet werden müssen.
  2. Definition von Richtlinien: Festlegung klarer Anweisungen und Standards für die Anbringung von Etiketten, um Konsistenz zu gewährleisten.
  3. Beschriftung: Beschriftung der Daten gemäß den festgelegten Richtlinien mit Hilfe spezieller Tools. Dies wird oft als Datenanmerkung bezeichnet.
  4. Qualitätssicherung (QA): Überprüfung der gekennzeichneten Daten, um die Genauigkeit, Konsistenz und Einhaltung der Richtlinien zu überprüfen.

Einen tieferen Einblick in die praktischen Schritte findest du im Ultralytics Data Collection and Annotation Guide.

Arten der Datenbeschriftung in der Computer Vision

Verschiedene Lebenslaufaufgaben erfordern unterschiedliche Arten von Etiketten:

  • Bounding Boxes: Zeichnen von Rechtecken um Objekte von Interesse für die Objekterkennung.
  • Polygone/Masken: Umreißen der genauen Form von Objekten auf Pixelebene für die Bildsegmentierung.
  • Keypoints: Das Markieren bestimmter Punkte auf einem Objekt (z. B. Gelenke am menschlichen Körper) für die Posenschätzung.
  • Klassifizierungs-Tags: Einem ganzen Bild ein einziges Label zuweisen, um seinen Inhalt zu kategorisieren.

Anwendungen und Beispiele aus der Praxis

Die Kennzeichnung von Daten ist die Grundlage für zahlreiche KI-Anwendungen in verschiedenen Branchen:

  • Gesundheitswesen: Beschriftung medizinischer Bilder (wie Röntgenbilder oder MRTs aus Quellen wie dem The Cancer Imaging Archive (TCIA)), um Modelle zu trainieren, die Krankheiten oder Anomalien erkennen. Mehr dazu unter KI im Gesundheitswesen.
  • Autonome Fahrzeuge: Annotieren von Sensordaten (Kamerabilder, LiDAR-Punktwolken) aus Datensätzen wie dem Waymo Open Dataset, um selbstfahrenden Autos beizubringen, Fußgänger, Fahrzeuge und Verkehrszeichen wahrzunehmen. Entdecke KI in der Automobilindustrie.
  • Einzelhandel: Kennzeichnung von Produkten in Regalen mit Bildern, um die Bestandsverwaltung zu automatisieren oder das Kundenverhalten zu analysieren.
  • Landwirtschaft: Beschriftung von Bildern von Nutzpflanzen, um die Gesundheit zu überwachen, Krankheiten zu erkennen oder den Ertrag zu schätzen.

Verwandte Konzepte

Die Kennzeichnung von Daten ist eng mit anderen wichtigen ML-Konzepten verbunden:

  • Datenerweiterung: Techniken, mit denen die Größe und Vielfalt eines beschrifteten Datensatzes künstlich vergrößert wird, indem bestehende Daten transformiert werden (z. B. durch Rotation oder Helligkeitsänderungen). Weitere Details findest du in diesem Überblick über die Datenerweiterung.
  • Datenvorverarbeitung: Die Schritte, die unternommen werden, um Rohdaten zu bereinigen, zu formatieren und vorzubereiten , bevor sie beschriftet oder für das Training verwendet werden.
  • Überwachtes Lernen: Das ML-Paradigma, das sich auf gelabelte Daten stützt, um Modelle zu trainieren, im Gegensatz zum unüberwachten oder verstärkenden Lernen. Mehr darüber erfährst du auf der Seite Supervised Learning von Wikipedia.

Herausforderungen bei der Datenkennzeichnung

Trotz ihrer Bedeutung ist die Kennzeichnung von Daten eine Herausforderung:

  • Kosten und Zeit: Die Beschriftung großer Datensätze kann teuer und zeitaufwändig sein und erfordert oft einen hohen menschlichen Einsatz.
  • Qualitätskontrolle: Die Sicherstellung einer hohen Genauigkeit und Konsistenz zwischen den Labels ist schwierig, aber entscheidend für die Leistung des Modells. Die Aufrechterhaltung einer hohen Datenqualität ist von entscheidender Bedeutung.
  • Subjektivität: Einige Aufgaben erfordern subjektive Einschätzungen, die zu Unstimmigkeiten zwischen den Bezeichnern führen können.
  • Skalierbarkeit: Die Verwaltung und Skalierung von Beschriftungsvorgängen für sehr große Datensätze kann komplex sein.

Techniken wie das Aktive Lernen zielen darauf ab, den Aufwand für die Beschriftung zu verringern, indem die informativsten Datenpunkte ausgewählt werden, die zuerst beschriftet werden, wodurch der Gesamtaufwand verringert werden kann, wie auf der Wikipedia-Seite Aktives Lernen erklärt wird.

Tools und Plattformen

Verschiedene Tools helfen, den Prozess der Datenbeschriftung zu rationalisieren. Ultralytics HUB bietet integrierte Datensatzverwaltung und Beschriftungsfunktionen für Computer Vision Aufgaben. Andere beliebte Open-Source- und kommerzielle Plattformen sind Label Studio und CVAT (Computer Vision Annotation Tool).

Alles lesen