Glossar

Architekturen zur Objekterkennung

Entdecke die Leistungsfähigkeit von Objekterkennungsarchitekturen, dem KI-Rückgrat für das Bildverständnis. Lerne noch heute Arten, Werkzeuge und praktische Anwendungen kennen!

Architekturen zur Objekterkennung sind die grundlegenden Strukturen, die künstliche Intelligenz (KI) Systeme bei der Interpretation visueller Informationen unterstützen. Diese spezialisierten neuronalen Netze sind nicht nur darauf ausgelegt, Objekte in einem Bild zu klassifizieren (zu erkennen , was vorhanden ist), sondern auch, sie genau zu lokalisieren, indem sie in der Regel Bounding Boxes um jedes erkannte Objekt zeichnen. Für diejenigen, die mit den grundlegenden Konzepten des maschinellen Lernens (ML) vertraut sind, ist das Verständnis dieser Architekturen entscheidend, um die Möglichkeiten der modernen Computer Vision (CV) zu nutzen. Sie bilden das Rückgrat von Systemen, die es Maschinen ermöglichen, die Welt auf ähnliche Weise zu "sehen" und zu verstehen wie Menschen.

Kernkomponenten

Die meisten Architekturen zur Objekterkennung bestehen aus mehreren Schlüsselkomponenten, die zusammenarbeiten. Ein Backbone-Netz, oft ein Convolutional Neural Network (CNN), führt eine erste Merkmalsextraktion aus dem Eingangsbild durch und identifiziert Muster auf niedriger Ebene, wie Kanten und Texturen, sowie zunehmend komplexere Merkmale. Danach folgt oft eine "Hals"-Komponente, die Merkmale aus verschiedenen Stufen des Backbone zusammenfasst, um reichhaltigere Darstellungen zu erstellen, die für die Erkennung von Objekten in verschiedenen Maßstäben geeignet sind. Schließlich nutzt der Erkennungskopf diese Merkmale, um die Klasse und den Standort (Bounding-Box-Koordinaten) der Objekte vorherzusagen. Die Leistung wird häufig anhand von Metriken wie Intersection over Union (IoU) zur Bewertung der Lokalisierungsgenauigkeit und Mean Average Precision (mAP) für die Gesamtqualität der Erkennung gemessen. Ausführliche Erklärungen dazu finden sich auf Seiten wie der COCO-Datenbewertungsseite.

Arten von Architekturen

Die Architekturen zur Objekterkennung werden anhand ihres Ansatzes unterschieden:

Zweistufige Detektoren: Diese Modelle schlagen zunächst Regionen von Interesse (RoIs) vor, in denen sich Objekte befinden könnten, und klassifizieren und verfeinern dann die Bounding Box für jede RoI. Beispiele hierfür sind die R-CNN-Familie, wie das Faster R-CNN. Sie sind oft sehr genau, können aber sehr rechenintensiv sein.
Einstufige Detektoren: Diese Modelle sagen die Boundingboxen und Klassenwahrscheinlichkeiten direkt aus dem Eingangsbild in einem einzigen Durchgang voraus und überspringen den Schritt des Regionsvorschlags. Beispiele hierfür sind der Single Shot MultiBox Detector (SSD) und der Ultralytics YOLO Familie. Sie bieten in der Regel schnellere Echtzeit-Inferenzgeschwindigkeiten und eignen sich daher für Anwendungen, die schnelle Reaktionen erfordern. Moderne einstufige Detektoren wie YOLO11 verwenden oft ankerfreie Techniken, die das Design im Vergleich zu älteren ankerbasierten Methoden vereinfachen. Du kannst Vergleiche zwischen verschiedenen YOLO anstellen, um ihre Entwicklung zu beobachten.

Unterscheidung von ähnlichen Begriffen

Es ist wichtig, die Architekturen der Objekterkennung von verwandten Computer Vision Aufgaben zu unterscheiden:

Bildklassifizierung: Weist einem ganzen Bild eine einzige Bezeichnung zu (z. B. "Katze", "Hund"). Sie identifiziert , was auf dem Bild zu sehen ist, aber nicht , wo sich bestimmte Objekte befinden. Beispiele findest du in der Dokumentation der KlassifizierungsaufgabeUltralytics .
Semantische Segmentierung: Klassifiziert jedes Pixel eines Bildes in eine vordefinierte Kategorie (z. B. werden alle Pixel, die zu Autos gehören, als "Auto" bezeichnet). Sie liefert dichte Vorhersagen, unterscheidet aber nicht zwischen verschiedenen Instanzen derselben Objektklasse.
Instanz-Segmentierung: Geht einen Schritt weiter als die semantische Segmentierung, indem jedes Pixel klassifiziert und zwischen einzelnen Objektinstanzen unterschieden wird (z. B. Beschriftung "Auto 1", "Auto 2"). Sie kombiniert Objekterkennung und semantische Segmentierung. Weitere Informationen findest du in der Dokumentation zur SegmentierungsaufgabeUltralytics .

Anwendungen in der realen Welt

Architekturen zur Objekterkennung ermöglichen zahlreiche KI-Anwendungen in den verschiedensten Bereichen:

Autonome Fahrzeuge: Für selbstfahrende Autos ist es wichtig, ihre Umgebung wahrzunehmen, indem sie Fußgänger, andere Fahrzeuge, Verkehrszeichen und Fahrbahnmarkierungen erkennen. Unternehmen wie Waymo verlassen sich stark auf eine ausgeklügelte Objekterkennung. Lies mehr über KI in selbstfahrenden Autos.
Sicherheit und Bewachung: Wird in Sicherheitssystemen eingesetzt, um unbefugten Zutritt zu erkennen, Menschenmengen auf ungewöhnliche Aktivitäten zu überwachen oder Gesichtserkennung zu implementieren. Im Ultralytics Security Alarm System Guide findest du ein praktisches Beispiel.
Medizinische Bildanalyse: Hilft Radiologen bei der Erkennung von Anomalien wie Tumoren oder Frakturen in Röntgenbildern, CT-Scans und MRTs. Entdecke KI im Gesundheitswesen und spezielle Anwendungen wie die Tumorerkennung mit YOLO11.
Retail Analytics: Ermöglicht Anwendungen wie automatisierte Kassen, Regalüberwachung und KI für die Bestandsverwaltung.

Werkzeuge und Technologien

Für die Entwicklung und den Einsatz von Modellen, die auf diesen Architekturen basieren, sind oft spezielle Tools und Frameworks erforderlich:

Deep Learning Frameworks: Bibliotheken wie PyTorch (besuchen Sie die offizielle PyTorch ) und TensorFlow (siehe die TensorFlow ) liefern die wichtigsten Bausteine.
Computer Vision Bibliotheken: OpenCV (offizielle Seite: OpenCV.org) bietet eine breite Palette von Funktionen für die Bildverarbeitung und -manipulation.
Modelle und Plattformen: Ultralytics bietet hochmoderne Ultralytics YOLO und die Ultralytics HUB-Plattform an, die das Training benutzerdefinierter Modelle, die Verwaltung von Datensätzen(wie COCO) und die Bereitstellung von Lösungen vereinfachen.
Open Source: Viele Architekturen und Tools zur Objekterkennung werden unter Open-Source-Lizenzen entwickelt, was die Zusammenarbeit und Innovation innerhalb der KI-Gemeinschaft fördert. Auf Ressourcen wie GitHub finden sich zahlreiche Projekte in diesem Bereich.

Architekturen zur Objekterkennung

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Kernkomponenten

Arten von Architekturen

Unterscheidung von ähnlichen Begriffen

Anwendungen in der realen Welt

Werkzeuge und Technologien

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Architekturen zur Objekterkennung

Trainiere YOLO Modelle einfachmit Ultralytics HUB

Flexible Unternehmenslizenzierungslösung für deine Innovation

Trainiere KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainiere YOLO Modelle einfach mit Ultralytics HUB

Kernkomponenten

Arten von Architekturen

Unterscheidung von ähnlichen Begriffen

Anwendungen in der realen Welt

Werkzeuge und Technologien

Mehr Blogs lesen

Werde Mitglied der Ultralytics Community

Trainiere YOLO Modelle einfach
mit Ultralytics HUB