Lernen Sie die Grundlagen der Datenbeschriftung für maschinelles Lernen kennen. Entdecken Sie wichtige Typen wie die Objekterkennung und erfahren Sie, wie Sie Arbeitsabläufe mit Ultralytics beschleunigen können.
Datenbeschriftung ist der grundlegende Prozess der Identifizierung von Rohdaten – wie Bildern, Videobildern, Text oder Audio – und des Hinzufügens informativer Tags oder Metadaten, um Kontext zu liefern. Im Bereich des maschinellen Lernens (ML) können Algorithmen die physische Welt nicht von sich aus verstehen; sie benötigen einen „Lehrer“, der sie anleitet. Diese Anleitung erfolgt in Form von beschrifteten Datensätzen, die beim überwachten Lernen verwendet werden. Die Beschriftungen dienen als Grundwahrheit und stellen die richtigen Antworten dar, die das Modell vorhersagen möchte. Unabhängig davon, ob ein einfacher Klassifikator oder eine komplexe Architektur wie Ultralytics trainiert wird, sind die Genauigkeit, Konsistenz und Qualität dieser Beschriftungen die wichtigsten Faktoren für den Erfolg eines Modells.
Obwohl die Begriffe in der Umgangssprache oft synonym verwendet werden, gibt es einen feinen Unterschied, der beachtet werden sollte. „Datenbeschriftung” bezieht sich im Allgemeinen auf den umfassenden Vorgang, einer Datenmenge eine Kategorie oder ein Tag zuzuweisen (z. B. das Markieren einer E-Mail als „Spam”). Im Gegensatz dazu ist die Datenannotation oft spezifischer für Computer Vision (CV) und beinhaltet die präzise Abgrenzung von Objekten mithilfe von Begrenzungsrahmen, Polygonen oder Schlüsselpunkten. In den meisten MLOps-Workflows (Machine Learning Operations) bezeichnen jedoch beide Begriffe die Erstellung hochwertiger Trainingsdaten.
Die Art der Kennzeichnung hängt von der Aufgabe ab, die das Modell ausführen muss. Zu den gängigen Arten gehören:
Der Nutzen der Datenkennzeichnung erstreckt sich auf praktisch alle Branchen, in denen KI zum Einsatz kommt.
Die Erstellung eines beschrifteten Datensatzes ist oft der zeitaufwändigste Teil eines KI-Projekts. Der Prozess umfasst in der Regel einen „Human-in-the-Loop”-Ansatz (HITL), bei dem menschliche Annotatoren die Beschriftungen überprüfen, um eine hohe Genauigkeit zu gewährleisten. Moderne Workflows nutzen Tools wie die Ultralytics , die die Verwaltung von Datensätzen vereinfacht und Teams die Zusammenarbeit bei Annotationen ermöglicht. Es können auch fortschrittliche Techniken wie aktives Lernen eingesetzt werden, bei denen ein Modell die Daten vorab kennzeichnet und Menschen nur die Vorhersagen mit geringer Zuverlässigkeit korrigieren, was den Prozess erheblich beschleunigt.
Das folgende Beispiel zeigt, wie ein vortrainiertes YOLO26-Modell verwendet werden kann, um automatisch Labels (automatische Beschriftung) für ein neues Bild zu generieren, die dann von Menschen korrigiert werden können:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")