Glossar

Architekturen zur Objekterkennung

Entdecke die Leistungsfähigkeit von Objekterkennungsarchitekturen, dem KI-Rückgrat für das Bildverständnis. Lerne noch heute Arten, Werkzeuge und praktische Anwendungen kennen!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Architekturen zur Objekterkennung sind die grundlegenden Strukturen, die künstliche Intelligenz (KI) Systeme bei der Interpretation visueller Informationen unterstützen. Diese spezialisierten neuronalen Netze sind nicht nur darauf ausgelegt, Objekte in einem Bild zu klassifizieren (zu erkennen , was vorhanden ist), sondern auch, sie genau zu lokalisieren, indem sie in der Regel Bounding Boxes um jedes erkannte Objekt zeichnen. Für diejenigen, die mit den grundlegenden Konzepten des maschinellen Lernens (ML) vertraut sind, ist das Verständnis dieser Architekturen entscheidend, um die Möglichkeiten der modernen Computer Vision (CV) zu nutzen. Sie bilden das Rückgrat von Systemen, die es Maschinen ermöglichen, die Welt auf ähnliche Weise zu "sehen" und zu verstehen wie Menschen.

Kernkomponenten

Die meisten Architekturen zur Objekterkennung bestehen aus mehreren Schlüsselkomponenten, die zusammenarbeiten. Ein Backbone-Netz, oft ein Convolutional Neural Network (CNN), führt eine erste Merkmalsextraktion aus dem Eingangsbild durch und identifiziert Muster auf niedriger Ebene, wie Kanten und Texturen, sowie zunehmend komplexere Merkmale. Danach folgt oft eine "Hals"-Komponente, die Merkmale aus verschiedenen Stufen des Backbone zusammenfasst, um reichhaltigere Darstellungen zu erstellen, die für die Erkennung von Objekten in verschiedenen Maßstäben geeignet sind. Schließlich nutzt der Erkennungskopf diese Merkmale, um die Klasse und den Standort (Bounding-Box-Koordinaten) der Objekte vorherzusagen. Die Leistung wird häufig anhand von Metriken wie Intersection over Union (IoU) zur Bewertung der Lokalisierungsgenauigkeit und Mean Average Precision (mAP) für die Gesamtqualität der Erkennung gemessen. Ausführliche Erklärungen dazu finden sich auf Seiten wie der COCO-Datenbewertungsseite.

Arten von Architekturen

Die Architekturen zur Objekterkennung werden anhand ihres Ansatzes unterschieden:

Unterscheidung von ähnlichen Begriffen

Es ist wichtig, die Architekturen der Objekterkennung von verwandten Computer Vision Aufgaben zu unterscheiden:

  • Bildklassifizierung: Weist einem ganzen Bild eine einzige Bezeichnung zu (z. B. "Katze", "Hund"). Sie identifiziert , was auf dem Bild zu sehen ist, aber nicht , wo sich bestimmte Objekte befinden. Beispiele findest du in der Dokumentation der KlassifizierungsaufgabeUltralytics .
  • Semantische Segmentierung: Klassifiziert jedes Pixel eines Bildes in eine vordefinierte Kategorie (z. B. werden alle Pixel, die zu Autos gehören, als "Auto" bezeichnet). Sie liefert dichte Vorhersagen, unterscheidet aber nicht zwischen verschiedenen Instanzen derselben Objektklasse.
  • Instanz-Segmentierung: Geht einen Schritt weiter als die semantische Segmentierung, indem jedes Pixel klassifiziert und zwischen einzelnen Objektinstanzen unterschieden wird (z. B. Beschriftung "Auto 1", "Auto 2"). Sie kombiniert Objekterkennung und semantische Segmentierung. Weitere Informationen findest du in der Dokumentation zur SegmentierungsaufgabeUltralytics .

Anwendungen in der realen Welt

Architekturen zur Objekterkennung ermöglichen zahlreiche KI-Anwendungen in den verschiedensten Bereichen:

Werkzeuge und Technologien

Für die Entwicklung und den Einsatz von Modellen, die auf diesen Architekturen basieren, sind oft spezielle Tools und Frameworks erforderlich:

  • Deep Learning Frameworks: Bibliotheken wie PyTorch (besuchen Sie die offizielle PyTorch ) und TensorFlow (siehe die TensorFlow ) liefern die wichtigsten Bausteine.
  • Computer Vision Bibliotheken: OpenCV (offizielle Seite: OpenCV.org) bietet eine breite Palette von Funktionen für die Bildverarbeitung und -manipulation.
  • Modelle und Plattformen: Ultralytics bietet hochmoderne Ultralytics YOLO und die Ultralytics HUB-Plattform an, die das Training benutzerdefinierter Modelle, die Verwaltung von Datensätzen(wie COCO) und die Bereitstellung von Lösungen vereinfachen.
  • Open Source: Viele Architekturen und Tools zur Objekterkennung werden unter Open-Source-Lizenzen entwickelt, was die Zusammenarbeit und Innovation innerhalb der KI-Gemeinschaft fördert. Auf Ressourcen wie GitHub finden sich zahlreiche Projekte in diesem Bereich.
Alles lesen