Grüner Scheck
Link in die Zwischenablage kopiert

Erforschen, wie die Anwendungen von Computer Vision funktionieren

Tauche mit uns tief in die Anwendungen der Computer Vision ein. Wir werden auch verschiedene Bildverarbeitungsaufgaben wie Objekterkennung und Segmentierung durchgehen.

Als wir die Geschichte der Computer-Vision-Modelle erforscht haben, haben wir gesehen, wie sich die Computer-Vision entwickelt hat und welcher Weg zu den modernen Vision-Modellen geführt hat, die wir heute haben. Moderne Modelle wie Ultralytics YOLOv8 unterstützen eine Vielzahl von Bildverarbeitungsaufgaben und werden in verschiedenen spannenden Anwendungen eingesetzt. 

In diesem Artikel werfen wir einen Blick auf die Grundlagen von Computer Vision und Bildverarbeitungsmodellen. Wir gehen darauf ein, wie sie funktionieren und wie sie in verschiedenen Branchen eingesetzt werden. Innovationen im Bereich der Computer Vision sind allgegenwärtig und gestalten unsere Welt im Stillen. Lass uns eine nach der anderen aufdecken! 

Was ist Computer Vision?

Künstliche Intelligenz (KI) ist ein Oberbegriff, der viele Technologien umfasst, die darauf abzielen, einen Teil der menschlichen Intelligenz nachzubilden. Ein solcher Teilbereich der KI ist die Computer Vision. Beim Computer Vision geht es darum, Maschinen mit Augen auszustatten, die ihre Umgebung sehen, beobachten und begreifen können. 

Genau wie das menschliche Sehen zielen auch Computer Vision Lösungen darauf ab, Objekte zu unterscheiden, Entfernungen zu berechnen und Bewegungen zu erkennen. Doch anders als Menschen, die auf lebenslange Erfahrungen zurückgreifen können, um zu sehen und zu verstehen, sind Computer auf riesige Datenmengen, hochauflösende Kameras und komplexe Algorithmen angewiesen. 

Abb. 1. Vergleich zwischen menschlichem Sehen und Computer Vision.

Computer Vision Systeme können visuelle Daten wie Bilder und Videos mit unglaublicher Geschwindigkeit und Genauigkeit verarbeiten und analysieren. Die Fähigkeit, große Mengen an visuellen Informationen schnell und genau zu analysieren, macht Computer Vision zu einem leistungsstarken Werkzeug in verschiedenen Branchen, von der Fertigung bis zum Gesundheitswesen.

Bildverarbeitungsmodelle unterstützen verschiedene Computer Vision-Aufgaben

Computer-Vision-Modelle sind das Herzstück jeder Computer-Vision-Anwendung. Sie sind im Wesentlichen Rechenalgorithmen, die mit Hilfe von Deep-Learning-Techniken entwickelt wurden, um Maschinen die Fähigkeit zu verleihen, visuelle Informationen zu interpretieren und zu verstehen. Bildverarbeitungsmodelle ermöglichen wichtige Bildverarbeitungsaufgaben, von der Bildklassifizierung bis zur Objekterkennung. Schauen wir uns einige dieser Aufgaben und ihre Anwendungsfälle genauer an. 

Bildklassifizierung

Bei der Bildklassifizierung geht es darum, Bilder in vordefinierte Klassen oder Kategorien einzuordnen und zu kennzeichnen. Ein Bildverarbeitungsmodell wie YOLOv8 kann auf großen Datensätzen mit beschrifteten Bildern trainiert werden. Während des Trainings lernt das Modell, Muster und Merkmale zu erkennen, die mit jeder Klasse verbunden sind. Sobald es trainiert ist, kann es die Kategorie neuer, ungesehener Bilder vorhersagen, indem es deren Merkmale analysiert und sie mit den gelernten Mustern vergleicht. 

Abb. 2. Ein Beispiel für eine Bildklassifizierung.

Es gibt verschiedene Arten der Bildklassifizierung. Bei medizinischen Bildern kannst du zum Beispiel die binäre Klassifizierung verwenden, um die Bilder in zwei Gruppen einzuteilen, zum Beispiel gesund oder krank. Eine andere Art ist die Multiklassenklassifizierung. Sie kann dabei helfen, Bilder in viele Gruppen einzuteilen, z. B. die verschiedenen Tiere auf einem Bauernhof wie Schweine, Ziegen und Kühe. Wenn du Tiere in Gruppen und Untergruppen einteilen möchtest, z. B. in Säugetiere und Vögel und dann weiter in Arten wie Löwen, Tiger, Adler und Spatzen, ist die hierarchische Klassifizierung die beste Option.

Objekt-Erkennung

Die Objekterkennung ist der Prozess der Identifizierung und Lokalisierung von Objekten in Bildern und Videobildern mithilfe von Computer Vision. Sie besteht aus zwei Aufgaben: der Objektlokalisierung, bei der Begrenzungsrahmen (Bounding Boxes) um die Objekte gezeichnet werden, und der Objektklassifizierung, bei der die Kategorie jedes Objekts bestimmt wird. Auf der Grundlage der Bounding-Box-Kommentare kann ein Bildverarbeitungsmodell lernen, Muster und Merkmale zu erkennen, die für jede Objektkategorie spezifisch sind, und das Vorhandensein und die Position dieser Objekte in neuen, ungesehenen Bildern vorhersagen. 

Abb. 3. YOLOv8 Objekterkennung zur Erkennung von Spielern auf einem Fußballfeld.

Für die Objekterkennung gibt es viele Anwendungsfälle in verschiedenen Branchen, vom Sport bis zur Meeresbiologie. Im Einzelhandel zum Beispiel nutzt die Just Walk Out-Technologie von Amazon die Objekterkennung, um den Kassiervorgang zu automatisieren, indem sie die Artikel identifiziert, die die Kunden mitnehmen. Eine Kombination aus Computer Vision und Sensordaten ermöglicht es den Kunden, ihre Artikel zu nehmen und zu gehen, ohne in der Schlange zu warten. 

Hier ist ein genauerer Blick darauf, wie es funktioniert:

  • An der Decke montierte Kameras erfassen die Kunden, die sich im Laden bewegen, und dieses Videomaterial wird in Echtzeit von Vision-Modellen verarbeitet.
  • Die Objekterkennung wird verwendet, um das genaue Produkt zu erkennen, das ein Kunde auswählt und in seinen Korb legt, um den virtuellen Warenkorb entsprechend zu aktualisieren.
  • Gewichtssensoren an den Regalen verbessern die Genauigkeit, indem sie die Entnahme oder den Austausch von Artikeln erkennen.
  • Wenn der Kunde den Laden verlässt, können Objekterkennung und Gesichtserkennungstechnologie eingesetzt werden, um zu bestätigen, dass der Kunde den Laden verlassen hat, und seine Zahlungsdaten, z. B. eine Kreditkarte, können verwendet werden, um ihn automatisch zu belasten.

Semantische und Instanz-Segmentierung

Semantische Segmentierung und Instanzsegmentierung sind Aufgaben der Computer Vision, die dabei helfen, Bilder in sinnvolle Segmente zu unterteilen. Die semantische Segmentierung klassifiziert Pixel auf der Grundlage ihrer semantischen Bedeutung und behandelt alle Objekte innerhalb einer Kategorie als eine Einheit mit demselben Label. Sie eignet sich für die Kennzeichnung von nicht zählbaren Objekten wie "Himmel" oder "Meer" oder von Clustern wie "Blätter" oder "Gras".

Die Instanzsegmentierung hingegen kann verschiedene Instanzen derselben Klasse unterscheiden, indem sie jedem erkannten Objekt ein eindeutiges Label zuweist. Du kannst die Instanzsegmentierung verwenden, um zählbare Objekte zu segmentieren, bei denen die Anzahl und Unabhängigkeit der Objekte wichtig ist. Sie ermöglicht eine genauere Identifizierung und Unterscheidung.

Abb. 4. Ein Beispiel für die semantische und instanzielle Segmentierung.

Wir können den Unterschied zwischen semantischer und instanzieller Segmentierung anhand eines Beispiels aus dem Bereich der selbstfahrenden Autos besser verstehen. Die semantische Segmentierung eignet sich hervorragend für Aufgaben, bei denen es darum geht, den Inhalt einer Szene zu verstehen, und kann in autonomen Fahrzeugen zur Klassifizierung von Merkmalen auf der Straße, wie Fußgängerüberwegen und Verkehrsschildern, eingesetzt werden. Die Instanzsegmentierung kann in autonomen Fahrzeugen eingesetzt werden, um zwischen einzelnen Fußgängern, Fahrzeugen und Hindernissen zu unterscheiden. 

Posen-Schätzung

Die Posenschätzung ist eine Aufgabe der Computer Vision, bei der es darum geht, Schlüsselpunkte der Posen eines Objekts in Bildern oder Videos zu erkennen und zu verfolgen. Am häufigsten wird sie für die Schätzung der menschlichen Pose verwendet, wobei die Schlüsselpunkte Bereiche wie Schultern und Knie umfassen. Die Schätzung der menschlichen Pose hilft uns, Handlungen und Bewegungen zu verstehen und zu erkennen, die für verschiedene Anwendungen wichtig sind.

Abb. 5. Ein Beispiel für die Schätzung der Körperhaltung mit YOLOv8.

Die Posenschätzung kann im Sport eingesetzt werden, um zu analysieren, wie sich Sportler bewegen. Die NBA nutzt Pose Estimation, um die Bewegungen und Positionen der Spieler während des Spiels zu untersuchen. Durch die Verfolgung von Schlüsselpunkten wie Schultern, Ellbogen, Knien und Knöcheln liefert die Pose Estimation detaillierte Einblicke in die Bewegungen der Spieler. Diese Erkenntnisse helfen Trainern, bessere Strategien zu entwickeln, Trainingsprogramme zu optimieren und während des Spiels Anpassungen in Echtzeit vorzunehmen. Außerdem können die Daten helfen, die Ermüdung der Spieler/innen und das Verletzungsrisiko zu überwachen, um die Gesundheit und Leistung der Spieler/innen insgesamt zu verbessern.

Oriented Bounding Boxes Objekterkennung

Oriented Bounding Boxes Object Detection (OBB) verwendet gedrehte Rechtecke, um Objekte in einem Bild genau zu identifizieren und zu lokalisieren. Im Gegensatz zu normalen Bounding Boxes, die sich an den Bildachsen ausrichten, drehen sich OBBs so, dass sie der Ausrichtung des Objekts entsprechen. Das macht sie besonders nützlich für Objekte, die nicht perfekt horizontal oder vertikal sind. Sie eignen sich hervorragend dazu, gedrehte Objekte genau zu lokalisieren und zu isolieren, um Überschneidungen in überfüllten Umgebungen zu vermeiden.

Abb. 6. Ein Beispiel für die Erkennung einer orientierten Bounding Box auf einem Luftbild von Booten mit YOLOV8.

Bei der maritimen Überwachung ist die Identifizierung und Verfolgung von Schiffen für die Sicherheit und das Ressourcenmanagement entscheidend. Die OBB-Erkennung kann zur präzisen Lokalisierung von Schiffen eingesetzt werden, selbst wenn sie dicht gedrängt oder in verschiedenen Winkeln ausgerichtet sind. Sie hilft dabei, Schifffahrtswege zu überwachen, den Seeverkehr zu steuern und den Hafenbetrieb zu optimieren. Sie kann auch bei der Katastrophenhilfe helfen, indem sie Schäden an Schiffen und Infrastruktur nach Ereignissen wie Wirbelstürmen oder Ölverschmutzungen schnell identifiziert und bewertet.

Objektverfolgung

Bisher haben wir uns mit Bildverarbeitungsaufgaben beschäftigt, die sich mit Bildern befassen. Die Objektverfolgung ist eine Bildverarbeitungsaufgabe, mit der ein Objekt über die einzelnen Bilder eines Videos hinweg verfolgt werden kann. Sie beginnt mit der Identifizierung des Objekts im ersten Bild mithilfe von Erkennungsalgorithmen und verfolgt dann kontinuierlich seine Position, während es sich durch das Video bewegt. Die Objektverfolgung umfasst Techniken wie die Objekterkennung, die Merkmalsextraktion und die Bewegungsvorhersage, um die Verfolgung genau zu halten.

Abb. 7. Verwendung von YOLOv8 zum Aufspüren von Fischen.

Sehmodelle wie YOLOv8 können in der Meeresbiologie zum Aufspüren von Fischen eingesetzt werden. Mit Unterwasserkameras können Forscher die Bewegungen und das Verhalten von Fischen in ihrem natürlichen Lebensraum beobachten. Der Prozess beginnt mit der Erkennung einzelner Fische in den ersten Bildern und verfolgt dann ihre Position im gesamten Video. Die Verfolgung von Fischen hilft Wissenschaftlern, Wanderungsmuster, soziales Verhalten und Interaktionen mit der Umwelt zu verstehen. Außerdem unterstützt es nachhaltige Fischereipraktiken, indem es Aufschluss über die Verteilung und den Bestand der Fische gibt.

Ein letzter Blick auf Computer Vision

Computer Vision verändert aktiv die Art und Weise, wie wir Technologie nutzen und mit der Welt interagieren. Durch den Einsatz von Deep-Learning-Modellen und komplexen Algorithmen zum Verstehen von Bildern und Videos hilft die Computer Vision der Industrie, viele Prozesse zu optimieren. Bildverarbeitungsaufgaben wie die Erkennung und Verfolgung von Objekten ermöglichen Lösungen, die man sich vorher nicht vorstellen konnte. Da die Computer Vision Technologie immer besser wird, wird die Zukunft viele weitere innovative Anwendungen bereithalten! 

Lass uns gemeinsam lernen und wachsen! Erkunde unser GitHub-Repository, um unsere Beiträge zur KI zu sehen. Schau dir an, wie wir Branchen wie selbstfahrende Autos und die Landwirtschaft mit KI neu definieren. 🚀

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens