Erfahren Sie, wie ein Erkennungskopf die Echtzeit-Objekterkennung ermöglicht. Entdecken Sie seine Rolle in Ultralytics für die hochpräzise Vorhersage von Begrenzungsrahmen und Beschriftungen.
Ein Erkennungskopf fungiert als letzte Entscheidungsebene in einer neuronalen Netzwerkarchitektur zur Objekterkennung . Während die früheren Ebenen des Modells für das Verstehen der Formen, Texturen und Merkmale innerhalb eines Bildes zuständig sind, ist der Erkennungskopf die spezifische Komponente, die diese Informationen interpretiert, um genau vorherzusagen, welche Objekte vorhanden sind und wo sie sich befinden. Er wandelt die abstrakten, hochrangigen Daten, die vom Merkmalsextraktor erzeugt werden, in verwertbare Ergebnisse um und gibt in der Regel eine Reihe von Begrenzungsrahmen aus, die identifizierte Objekte zusammen mit den entsprechenden Klassenbezeichnungen und Konfidenzwerten umschließen.
Um die Funktion eines Detektorkopfes vollständig zu verstehen, ist es hilfreich, sich moderne Detektoren als aus drei Hauptstufen bestehend vorzustellen, von denen jede einen bestimmten Zweck in der Computer-Vision-Pipeline (CV) erfüllt:
Das Design von Detektionsköpfen hat sich erheblich weiterentwickelt, um Geschwindigkeit und Genauigkeit zu verbessern, insbesondere mit dem Übergang von traditionellen Methoden zu modernen Echtzeit-Inferenzmodellen.
Die Präzision des Detektionskopfes ist entscheidend für den Einsatz künstlicher Intelligenz (KI) in sicherheitskritischen und industriellen Umgebungen. Mit Hilfe der Ultralytics können Anwender Daten einfach annotieren und diese spezialisierten Köpfe trainieren .
Das folgende Beispiel zeigt, wie man eine
YOLO26 Modell und überprüft die Ausgabe seines Erkennungskopfes.
Wenn die Inferenz läuft, verarbeitet der Kopf das Bild und gibt das endgültige Ergebnis zurück. boxes mit Koordinaten und
Klassen-IDs.
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to utilize the detection head
results = model("https://ultralytics.com/images/bus.jpg")
# The detection head outputs are stored in results[0].boxes
for box in results[0].boxes:
# Print the bounding box coordinates and the predicted class
print(f"Class: {int(box.cls)}, Coordinates: {box.xywh.numpy()}")
Diese Interaktion verdeutlicht, wie der Detektionskopf komplexe neuronale Netzwerkaktivierungen in lesbare Daten übersetzt , die Entwickler für nachgelagerte Aufgaben wie Objektverfolgung oder -zählung verwenden können.