Glossar

Image Recognition

Entdecke, wie Bilderkennung KI in die Lage versetzt, Bilder zu klassifizieren und zu verstehen, und damit Innovationen im Gesundheitswesen, im Einzelhandel, in der Sicherheitsbranche und in vielen anderen Bereichen vorantreibt.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Bilderkennung ist ein wichtiger Teilbereich der künstlichen Intelligenz (KI) und des Computer Vision (CV), der es Maschinen ermöglicht, visuelle Informationen aus Bildern oder Videos zu identifizieren und zu interpretieren. Dabei geht es nicht nur um das bloße Erkennen von Pixeln, sondern auch um das Verstehen von Inhalten wie Objekten, Personen, Szenen und Aktionen, die in den visuellen Daten dargestellt sind. Diese Technologie bildet die Grundlage für zahllose Anwendungen und ermöglicht es Systemen, die Welt auf ähnliche Weise zu "sehen" und zu verstehen wie Menschen.

Wie die Bilderkennung funktioniert

Die Bilderkennung stützt sich im Wesentlichen auf maschinelles Lernen (ML), insbesondere auf Deep-Learning-Algorithmen (DL). Faltungsneuronale Netze (Convolutional Neural Networks, CNN) sind eine grundlegende Komponente, um automatisch und adaptiv räumliche Hierarchien von Merkmalen aus Bildern zu lernen. Der Prozess beinhaltet in der Regel das Trainieren eines Modells auf großen Datensätzen mit markierten Bildern, wie z. B. dem ImageNet-Datensatz, bei dem jedes Bild mit Informationen über seinen Inhalt versehen ist. Während des Trainings lernt das Modell, bestimmte visuelle Muster und Merkmale mit verschiedenen Kennzeichnungen oder Kategorien zu verknüpfen. Einmal trainiert, kann das Modell neue, ungesehene Bilder analysieren und die darin enthaltenen Objekte oder Konzepte vorhersagen.

Unterscheidungen zu verwandten Begriffen

Obwohl sie mit anderen Aufgaben der Computer Vision verwandt ist, hat die Bilderkennung besondere Nuancen:

  • Bildklassifizierung: Bei der Klassifizierung geht es in der Regel darum, einem ganzen Bild ein einziges primäres Label zuzuweisen (z. B. ein Bild als "Katze" oder "Hund" zu identifizieren). Bilderkennung kann manchmal auch ein breiteres Verständnis beinhalten, z. B. die Identifizierung mehrerer Objekte oder Aktionen innerhalb der Szene. Ultralytics YOLO , wie YOLOv11, können Bildklassifizierungsaufgaben durchführen.
  • Objekterkennung: Diese Aufgabe geht einen Schritt weiter als die einfache Erkennung, indem sie nicht nur feststellt, welche Objekte in einem Bild vorhanden sind, sondern auch , wo sie sich befinden, in der Regel durch das Zeichnen von Begrenzungsrahmen um sie herum.
  • Bildsegmentierung: Ermöglicht ein detaillierteres Verständnis, indem jedes Pixel in einem Bild klassifiziert wird, um den genauen Umriss oder die Form von Objekten zu bestimmen und zwischen verschiedenen Instanzen(Instanzsegmentierung) oder Kategorien(semantische Segmentierung) zu unterscheiden.

Anwendungen in der realen Welt

Die Bilderkennung ermöglicht eine breite Palette von Anwendungen in verschiedenen Branchen:

  • Gesundheitswesen: In der medizinischen Bildanalyse helfen sie Radiologen, Anomalien wie Tumore oder Frakturen in Röntgenbildern, CT-Scans und MRTs zu erkennen, was zu früheren Diagnosen führen kann. Modelle können zum Beispiel für Aufgaben wie die Tumorerkennung in der medizinischen Bildgebung trainiert werden.
  • Einzelhandel: Ermöglicht Anwendungen wie automatische Kassensysteme, die Produkte ohne Barcode identifizieren, verbessert die Bestandsverwaltung im Einzelhandel durch die Überwachung von Lagerbeständen und analysiert das Kundenverhalten in Geschäften.
  • Sicherheit und Überwachung: Ermöglicht Gesichtserkennungssysteme zur Identitätsüberprüfung und Zugangskontrolle und erkennt Eindringlinge oder ungewöhnliche Aktivitäten in Videoübertragungen und trägt zu Systemen wie Computer Vision zur Diebstahlprävention bei.
  • Autonome Fahrzeuge: Unverzichtbar für KI in selbstfahrenden Autos, um Fußgänger, andere Fahrzeuge, Ampeln und Straßenschilder zu erkennen und so eine sichere Navigation zu ermöglichen.
  • Inhaltsmoderation: Social-Media-Plattformen und Online-Dienste nutzen Bilderkennung, um unangemessene oder schädliche Inhalte, wie z. B. Deepfakes oder richtlinienwidrige Bilder, automatisch zu erkennen und zu filtern, wobei sie sich von den Prinzipien der KI-Ethik leiten lassen.

Werkzeuge und Technologien

Die Entwicklung von Bilderkennungssystemen erfordert oft den Einsatz spezialisierter Tools und Frameworks. Bibliotheken wie OpenCV bieten wichtige Bildverarbeitungsfunktionen, während Deep-Learning-Frameworks wie PyTorch und TensorFlow die Bausteine für die Erstellung und das Training komplexer neuronaler Netzwerkmodelle bieten. Plattformen wie Ultralytics HUB rationalisieren den Prozess des Trainings, des Einsatzes und der Verwaltung von Computer-Vision-Modellen, einschließlich derjenigen, die für Erkennungs- und Klassifizierungsaufgaben verwendet werden.

Alles lesen