Glossar

Image Recognition

Entdecken Sie, wie Bilderkennung KI in die Lage versetzt, Bilder zu klassifizieren und zu verstehen, und damit Innovationen im Gesundheitswesen, im Einzelhandel, in der Sicherheitsbranche und in anderen Bereichen vorantreibt.

Bilderkennung ist ein weites Feld der Computer Vision, das es Maschinen ermöglicht, Objekte, Personen, Orte und Aktionen in digitalen Bildern oder Videos zu identifizieren und zu interpretieren. Es handelt sich um eine grundlegende Technologie, die unzählige Anwendungen ermöglicht, von der Entsperrung Ihres Telefons mit Ihrem Gesicht bis hin zur Navigation autonomer Fahrzeuge in komplexen Umgebungen. Im Kern nutzt die Bilderkennung Algorithmen des maschinellen Lernens (ML) und des tiefen Lernens (DL), um Pixel zu analysieren und aussagekräftige Muster zu extrahieren, die die menschliche Fähigkeit, visuelle Informationen zu verstehen, imitieren.

Bilderkennung vs. verwandte Aufgaben

Obwohl der Begriff "Bilderkennung" oft synonym verwendet wird, ist er ein allgemeiner Begriff, der mehrere spezifischere Aufgaben umfasst. Es ist wichtig, sie von ihren Teilbereichen zu unterscheiden:

  • Bildklassifizierung: Dies ist die einfachste Form der Bilderkennung. Sie beinhaltet die Zuweisung eines einzigen Etiketts für ein ganzes Bild aus einem vordefinierten Satz von Kategorien. Ein Modell könnte zum Beispiel ein Bild so klassifizieren, dass es eine "Katze", einen "Hund" oder ein "Auto" enthält. Das Ergebnis ist eine einzige Bezeichnung für das gesamte Bild.
  • Objekterkennung: Bei der Objekterkennung handelt es sich um eine fortgeschrittenere Aufgabe, bei der die Objekte in einem Bild nicht nur klassifiziert, sondern auch lokalisiert werden, in der Regel durch das Zeichnen eines Begrenzungsrahmens um jedes Objekt. Ein selbstfahrendes Auto nutzt beispielsweise die Objekterkennung, um Fußgänger, andere Fahrzeuge und Verkehrsschilder zu erkennen und zu lokalisieren.
  • Bildsegmentierung: Diese Aufgabe geht noch einen Schritt weiter, indem sie die genauen Pixel identifiziert, die zu jedem Objekt in einem Bild gehören. Es wird eine detaillierte Maske für jedes Objekt erstellt, die für Anwendungen, die ein tiefes Verständnis der Form und der Grenzen eines Objekts erfordern, wie z. B. bei der medizinischen Bildanalyse, entscheidend ist.

Wie die Bilderkennung funktioniert

Die moderne Bilderkennung wird überwiegend von Convolutional Neural Networks (CNNs) betrieben, einer Art neuronaler Netze, die besonders effektiv bei der Verarbeitung gitterförmiger Daten wie Bildern sind. Der Prozess umfasst in der Regel:

  1. Datensammlung: Es wird ein großer Datensatz mit beschrifteten Bildern gesammelt. Berühmte Beispiele sind ImageNet und COCO.
  2. Modell-Training: Das CNN wird auf diesem Datensatz trainiert. Während des Trainings lernt das Netzwerk, Muster - von einfachen Kanten und Texturen bis hin zu komplexen Objektteilen - durch einen Prozess namens Merkmalsextraktion zu erkennen. Die Gewichte des Modells werden so angepasst, dass die Differenz zwischen den Vorhersagen und den tatsächlichen Bezeichnungen minimiert wird.
  3. Inferenz: Sobald das Modell trainiert ist, kann es Vorhersagen für neue, ungesehene Bilder treffen. Dieser Prozess der Anwendung eines trainierten Modells wird Inferenz genannt.

Anwendungen in der realen Welt

Die Bilderkennung ist in vielen Branchen nicht mehr wegzudenken:

  • Gesundheitswesen: In der KI im Gesundheitswesen hilft die Bilderkennung Radiologen bei der Erkennung von Tumoren, Frakturen und anderen Anomalien in Röntgenbildern, MRTs und CT-Scans. So können beispielsweise Modelle auf Datensätzen medizinischer Bilder trainiert werden, um Hirntumore mit hoher Genauigkeit zu erkennen und Ärzten zu helfen, schnellere Diagnosen zu stellen.
  • Einzelhandel: Einzelhändler nutzen die Bilderkennung für die Bestandsverwaltung, indem sie Kameras die Regale überwachen lassen, um zu erkennen, wenn Produkte zur Neige gehen. Eine weitere beliebte Anwendung sind visuelle Suchfunktionen auf E-Commerce-Websites, die es Kunden ermöglichen, ein Foto hochzuladen, um ähnliche Produkte zu finden. Mehr darüber erfahren Sie auf unserer Seite über KI im Einzelhandel.

Tools und Schulungen

Die Entwicklung von Bilderkennungsanwendungen erfordert häufig die Verwendung spezieller Bibliotheken und Frameworks. Zu den Schlüsseltechnologien gehören:

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert