Entdecken Sie die Grundlagen der Objekterkennung. Erfahren Sie, wie Ultralytics Objekte in Echtzeit mit unübertroffener Geschwindigkeit und Genauigkeit identifiziert und lokalisiert.
Die Objekterkennung ist eine zentrale Technologie im Bereich der Computervision (CV), die es Computersystemen ermöglicht , bestimmte Objekte in visuellen Daten zu identifizieren und zu lokalisieren. Im Gegensatz zu einfacheren Bildklassifizierungsaufgaben, bei denen ein einzelnes Label einem gesamten Bild zugewiesen wird, bietet die Objekterkennung ein detailliertes Verständnis, indem sie gleichzeitig die Klasse eines Objekts (z. B. „Person“, „Auto“, „Hund“) und dessen räumliche Position vorhersagt. Dieser Standort wird in der Regel durch einen rechteckigen Begrenzungsrahmen dargestellt, der das Objekt umgibt, begleitet von einem Konfidenzwert, der die Sicherheit des Modells angibt. Diese doppelte Fähigkeit – Erkennung und Lokalisierung – dient als sensorische Grundlage für moderne Anwendungen der künstlichen Intelligenz (KI) und ermöglicht es Maschinen, sinnvoll mit ihrer Umgebung zu interagieren.
Moderne Detektoren stützen sich in hohem Maße auf Deep-Learning-Architekturen (DL), insbesondere auf Convolutional Neural Networks (CNNs), um komplexe Merkmale aus Eingabebildern zu extrahieren. Der Prozess beginnt mit einer Trainingsphase, in der ein Modell anhand umfangreicher, beschrifteter Sammlungen wie dem COCO lernt, Muster zu erkennen. Während dieser Phase optimiert der Algorithmus die Gewichtung seines Modells, um Vorhersagefehler zu minimieren .
Wenn das Modell für die Inferenz eingesetzt wird, scannt es neue Bilder, um potenzielle Objekte vorzuschlagen. Fortgeschrittene Algorithmen wenden dann Non-Maximum Suppression (NMS) an, um doppelte Erkennungen herauszufiltern und sicherzustellen, dass jede einzelne Entität nur einmal hervorgehoben wird. Die Genauigkeit dieser Vorhersagen wird häufig anhand der Intersection over Union (IoU) -Metrik bewertet, die die Überschneidung zwischen dem vorhergesagten Kasten und der Grundwahrheit misst. Jüngste Fortschritte haben zu End-to-End-Architekturen wie YOLO26 geführt, die diese Pipeline für außergewöhnliche Geschwindigkeit und Echtzeit-Inferenzfähigkeiten auf Edge-Geräten optimieren.
Es ist entscheidend, die Objekterkennung von verwandten Konzepten zu unterscheiden, um das richtige Werkzeug für ein Projekt auszuwählen:
Die Vielseitigkeit der Objekterkennung treibt Innovationen in wichtigen Branchen voran. Im Automobilsektor ist die KI in autonomen Fahrzeugen entscheidend auf Erkennungsmodelle angewiesen, um Fußgänger, Verkehrszeichen und andere Fahrzeuge sofort zu identifizieren und sicher zu navigieren. Durch die Verarbeitung von Videoaufnahmen aus Bordkameras treffen diese Systeme Entscheidungen in Sekundenbruchteilen, die Unfälle verhindern.
Ein weiterer prominenter Anwendungsfall findet sich in der KI im Einzelhandel. Automatisierte Kassensysteme und intelligente Roboter für die Bestandsverwaltung nutzen die Objekterkennung, um Regale zu scannen, Produkte zu erkennen und detect oder falsch platzierte Artikel detect . Diese Automatisierung rationalisiert die Lieferketten und verbessert das Kundenerlebnis, indem sie sicherstellt, dass Produkte immer verfügbar sind.
Entwickler können Erkennungsworkflows ganz einfach mithilfe der ultralytics Python . Das folgende
Beispiel zeigt, wie ein vortrainiertes Modell geladen wird. YOLO26 Modell
und führen Sie eine Inferenz für ein Bild durch.
from ultralytics import YOLO
# Load the latest YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image from a URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
Für Teams, die ihre Abläufe skalieren möchten, bietet die Ultralytics eine umfassende Umgebung zum Kommentieren von Daten, zum Trainieren benutzerdefinierter Modelle in der Cloud und zum Bereitstellen dieser Modelle in verschiedenen Formaten wie ONNX oder TensorRT. Die Nutzung solcher Plattformen vereinfacht den MLOps- Lebenszyklus, sodass sich Ingenieure auf die Optimierung ihrer Anwendungen konzentrieren können, anstatt sich um die Verwaltung der Infrastruktur zu kümmern.