Erfahre mehr über Objekterkennung, ihre Bedeutung in der KI und wie Modelle wie YOLO11 Branchen wie selbstfahrende Autos, Gesundheitswesen und Sicherheit verändern.
In vielen Branchen werden Lösungen für künstliche Intelligenz (KI) schnell in den Betrieb integriert. Unter den vielen KI-Technologien, die es heute gibt, ist Computer Vision eine der beliebtesten. Computervision ist ein Teilgebiet der KI, das Computern hilft, den Inhalt von Bildern und Videos zu sehen und zu verstehen, genau wie Menschen es tun. Sie ermöglicht es Maschinen, Objekte zu erkennen, Muster zu identifizieren und dem, was sie sehen, einen Sinn zu geben.
Der weltweite Marktwert von Computer Vision wird bis 2032 auf 175,72 Mrd. USD geschätzt. Computer Vision umfasst verschiedene Aufgaben, die es KI-Systemen ermöglichen, visuelle Daten zu analysieren und zu interpretieren. Eine der am häufigsten genutzten und wichtigsten Aufgaben von Computer Vision ist die Objekterkennung.
Die Objekterkennung konzentriert sich auf die Lokalisierung und Klassifizierung von Objekten in visuellen Daten. Wenn du einem Computer zum Beispiel das Bild einer Kuh zeigst, kann er die Kuh erkennen und einen Begrenzungsrahmen um sie ziehen. Diese Fähigkeit ist in realen Anwendungen wie der Tierüberwachung, selbstfahrenden Autos und der Überwachung nützlich.
Wie kann also eine Objekterkennung durchgeführt werden? Eine Möglichkeit ist die Verwendung von Computer Vision Modellen. Ein Beispiel, Ultralytics YOLO11 ist ein Computer Vision Modell, das Computer Vision Aufgaben wie die Objekterkennung unterstützt.
In diesem Leitfaden gehen wir auf die Objekterkennung ein und erklären, wie sie funktioniert. Außerdem besprechen wir einige reale Anwendungen der Objekterkennung und Ultralytics YOLO11.
Die Objekterkennung ist eine Aufgabe der Computer Vision, die Objekte in Bildern oder Videos identifiziert und lokalisiert. Sie beantwortet zwei wichtige Fragen: "Welche Objekte befinden sich im Bild?" und "Wo befinden sie sich?".
Du kannst dir die Objekterkennung als einen Prozess vorstellen, der zwei wichtige Schritte umfasst. Der erste, die Objektklassifizierung, ermöglicht es dem System, Objekte zu erkennen und zu benennen, z. B. eine Katze, ein Auto oder eine Person anhand gelernter Muster zu identifizieren. Im zweiten Schritt, der Lokalisierung, wird die Position des Objekts bestimmt, indem ein Begrenzungsrahmen (Bounding Box) um das Objekt gezogen wird, der angibt, wo es im Bild erscheint. Diese Schritte zusammen ermöglichen es Maschinen, Objekte in einer Szene zu erkennen und zu verstehen.
Der Aspekt der Objekterkennung, der sie einzigartig macht, ist ihre Fähigkeit, Objekte zu erkennen und ihren Standort genau zu bestimmen. Andere Computer Vision Aufgaben konzentrieren sich auf andere Ziele.
Bei der Bildklassifizierung zum Beispiel wird einem ganzen Bild ein Label zugewiesen. Die Bildsegmentierung hingegen liefert ein Verständnis der verschiedenen Elemente auf Pixelebene. Die Objekterkennung hingegen kombiniert die Erkennung mit der Lokalisierung. Das macht sie besonders nützlich für Aufgaben wie das Zählen mehrerer Objekte in Echtzeit.
Wenn du dich mit verschiedenen Begriffen der Computer Vision beschäftigst, hast du vielleicht das Gefühl, dass Objekterkennung und Objekterfassung austauschbar sind - aber sie dienen unterschiedlichen Zwecken. Eine gute Möglichkeit, den Unterschied zu verstehen, ist ein Blick auf die Gesichtserkennung und die Gesichtserkennung.
Die Gesichtserkennung ist eine Art der Objekterkennung. Sie identifiziert das Vorhandensein eines Gesichts in einem Bild und markiert seine Position mithilfe eines Begrenzungsrahmens. Sie beantwortet die Frage: "Wo ist das Gesicht im Bild?" Diese Technologie wird häufig in Smartphone-Kameras eingesetzt, die automatisch auf Gesichter fokussieren, oder in Sicherheitskameras, die erkennen, ob eine Person anwesend ist.
Die Gesichtserkennung hingegen ist eine Form der Objekterkennung. Sie erkennt nicht nur ein Gesicht, sondern identifiziert auch, um wessen Gesicht es sich handelt, indem sie einzigartige Merkmale analysiert und sie mit einer Datenbank vergleicht. Sie beantwortet die Frage: "Wer ist diese Person?" Diese Technologie steckt hinter der Entsperrung deines Telefons mit Face ID oder den Sicherheitssystemen an Flughäfen, die Identitäten überprüfen.
Einfach ausgedrückt: Die Objekterkennung findet und lokalisiert Objekte, während die Objekterkennung sie klassifiziert und identifiziert.
Viele Modelle zur Objekterkennung, wie YOLO11, sind für die Erkennung von Gesichtern konzipiert, nicht aber für die Gesichtserkennung. YOLO11 kann das Vorhandensein eines Gesichts in einem Bild effizient erkennen und eine Bounding Box um das Gesicht ziehen, was es für Anwendungen wie Überwachungssysteme, die Überwachung von Menschenmengen und das automatische Markieren von Fotos nützlich macht. Allerdings kann es nicht feststellen, wessen Gesicht es ist. YOLO11 kann mit speziell für die Gesichtserkennung trainierten Modellen wie Facenet oder DeepFace integriert werden, um sowohl die Erkennung als auch die Identifizierung in einem einzigen System zu ermöglichen.
Bevor wir erörtern, wie die Objekterkennung funktioniert, wollen wir uns erst einmal genauer ansehen, wie ein Computer ein Bild analysiert. Anstatt ein Bild so zu sehen, wie wir es tun, zerlegt ein Computer es in ein Gitter aus winzigen Quadraten, die Pixel genannt werden. Jedes Pixel enthält Farb- und Helligkeitsinformationen, die der Computer verarbeiten kann, um visuelle Daten zu interpretieren.
Um diesen Pixeln einen Sinn zu geben, gruppieren Algorithmen sie auf der Grundlage von Form, Farbe und der Nähe zueinander in sinnvolle Regionen. Modelle zur Objekterkennung, wie YOLO11, können Muster oder Merkmale in diesen Pixelgruppen erkennen.
Ein selbstfahrendes Auto sieht zum Beispiel einen Fußgänger nicht so, wie wir es tun - es erkennt Formen und Muster, die den Merkmalen eines Fußgängers entsprechen. Diese Modelle sind auf umfangreiches Training mit markierten Bilddaten angewiesen, damit sie die charakteristischen Merkmale von Objekten wie Autos, Verkehrsschildern und Menschen lernen können.
Ein typisches Objekterkennungsmodell besteht aus drei Hauptteilen: Rückgrat, Hals und Kopf. Das Rückgrat extrahiert wichtige Merkmale aus einem Bild. Der Hals verarbeitet und verfeinert diese Merkmale, während der Kopf für die Vorhersage von Objektpositionen und deren Klassifizierung zuständig ist.
Sobald die ersten Erkennungen gemacht wurden, werden Nachbearbeitungstechniken angewendet, um die Genauigkeit zu verbessern und überflüssige Vorhersagen herauszufiltern. So werden zum Beispiel überlappende Bounding Boxes entfernt, um sicherzustellen, dass nur die wichtigsten Erkennungen erhalten bleiben. Außerdem werden jedem erkannten Objekt Konfidenzwerte (numerische Werte, die angeben, wie sicher das Modell ist, dass ein erkanntes Objekt zu einer bestimmten Klasse gehört) zugewiesen, um die Gewissheit des Modells in Bezug auf seine Vorhersagen anzuzeigen.
Abschließend werden die Ergebnisse in Form von Begrenzungsrahmen (Bounding Boxes), die um die erkannten Objekte gezeichnet werden, zusammen mit den vorhergesagten Klassenbezeichnungen und Konfidenzwerten angezeigt. Diese Ergebnisse können dann für reale Anwendungen genutzt werden.
Heutzutage gibt es viele Computer-Vision-Modelle, und zu den beliebtesten gehören die YOLO Ultralytics . Sie sind bekannt für ihre Geschwindigkeit, Genauigkeit und Vielseitigkeit. Im Laufe der Jahre sind diese Modelle schneller und präziser geworden und können eine größere Bandbreite an Aufgaben bewältigen. Die Veröffentlichung von Ultralytics YOLOv5 wurde der Einsatz von Frameworks wie PyTorch vereinfacht, so dass mehr Menschen fortschrittliche Vision AI nutzen können, ohne über tiefgreifende technische Kenntnisse zu verfügen.
Auf dieser Grundlage bauen wir auf, Ultralytics YOLOv8 neue Funktionen wie Instanzsegmentierung, Posenschätzung und Bildklassifizierung eingeführt. Jetzt geht YOLO11 noch einen Schritt weiter und verbessert die Leistung bei verschiedenen Aufgaben. Mit 22% weniger Parametern als YOLOv8m erreicht YOLO11m eine höhere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz. Einfach ausgedrückt: YOLO11 kann Objekte mit größerer Genauigkeit erkennen und verbraucht dabei weniger Ressourcen, was es schneller und zuverlässiger macht.
Egal, ob du ein KI-Experte bist oder gerade erst anfängst, YOLO11 bietet eine leistungsstarke und dennoch benutzerfreundliche Lösung für Computer-Vision-Anwendungen.
Das Training von KI-Modellen hilft Computern, Bilder und Videos zu erkennen und zu verstehen. Das Training kann jedoch ein zeitaufwändiger Prozess sein. Anstatt bei Null anzufangen, beschleunigt das Transfer-Lernen die Arbeit, indem es bereits trainierte Modelle verwendet, die bereits gängige Muster erkennen.
YOLO11 wurde zum Beispiel bereits mit dem COCO-Datensatz trainiert, der eine Vielzahl von Alltagsgegenständen enthält. Dieses vortrainierte Modell kann weiter trainiert werden, um bestimmte Objekte zu erkennen, die im ursprünglichen Datensatz nicht enthalten sind.
Um YOLO11 individuell zu trainieren, brauchst du einen beschrifteten Datensatz mit Bildern der Objekte, die du erkennen willst. Wenn du z. B. ein Modell zur Erkennung verschiedener Obstsorten in einem Lebensmittelgeschäft erstellen möchtest, würdest du einen Datensatz mit beschrifteten Bildern von Äpfeln, Bananen, Orangen usw. erstellen. Sobald der Datensatz vorbereitet ist, kann YOLO11 trainiert werden, indem Parameter wie Stapelgröße, Lernrate und Epochen angepasst werden, um die Leistung zu optimieren.
Mit diesem Ansatz können Unternehmen YOLO11 trainieren, alles zu erkennen, von defekten Teilen in der Produktion bis hin zu Wildtierarten in Naturschutzprojekten, und das Modell genau auf ihre Bedürfnisse zuschneiden.
Als Nächstes werfen wir einen Blick auf einige reale Anwendungsfälle der Objekterkennung und wie sie verschiedene Branchen verändert.
Selbstfahrende Autos nutzen Computer-Vision-Aufgaben wie die Objekterkennung, um sicher zu navigieren und Hindernissen auszuweichen. Diese Technologie hilft ihnen, Fußgänger, andere Fahrzeuge, Schlaglöcher und Gefahren auf der Straße zu erkennen und ihre Umgebung besser zu verstehen. Sie können schnelle Entscheidungen treffen und sich sicher durch den Verkehr bewegen, indem sie ihre Umgebung ständig analysieren.
Medizinische Bildgebungsverfahren wie Röntgen, MRT, CT und Ultraschall erstellen sehr detaillierte Bilder des menschlichen Körpers, um die Diagnose und Behandlung von Krankheiten zu unterstützen. Diese Scans produzieren große Datenmengen, die Ärzte wie Radiologen und Pathologen sorgfältig analysieren müssen, um Krankheiten zu erkennen. Es kann jedoch zeitaufwändig sein, jedes Bild im Detail zu prüfen, und manchmal entgehen den menschlichen Experten aufgrund von Müdigkeit oder Zeitmangel Details.
Objekterkennungsmodelle wie YOLO11 können helfen, indem sie wichtige Merkmale in medizinischen Scans wie Organe, Tumore oder Anomalien automatisch und mit hoher Genauigkeit erkennen. Individuell trainierte Modelle können bedenkliche Bereiche mit Bounding Boxes hervorheben und Ärzten helfen, sich schneller auf mögliche Probleme zu konzentrieren. Das reduziert die Arbeitsbelastung, verbessert die Effizienz und liefert schnelle Erkenntnisse.
Die Objektverfolgung ist eine von YOLO11 unterstützte Bildverarbeitungsaufgabe, die Echtzeitüberwachung und Sicherheitsverbesserungen ermöglicht. Sie baut auf der Objekterkennung auf, indem sie Objekte identifiziert und ihre Bewegung kontinuierlich über Frames hinweg verfolgt. Diese Technologie wird häufig in Überwachungssystemen eingesetzt, um die Sicherheit in verschiedenen Umgebungen zu verbessern.
In Schulen und Kindertagesstätten zum Beispiel kann die Objektverfolgung dabei helfen, Kinder zu überwachen und sie daran zu hindern, sich zu verlaufen. In Sicherheitsanwendungen spielt es eine wichtige Rolle bei der Erkennung von Eindringlingen in gesperrten Bereichen, bei der Überwachung von Menschenmengen auf Überfüllung oder verdächtiges Verhalten und bei der Versendung von Echtzeitwarnungen, wenn unbefugte Aktivitäten entdeckt werden. Indem sie Objekte verfolgen, während sie sich bewegen, erhöhen YOLO11 Ortungssysteme die Sicherheit, automatisieren die Überwachung und ermöglichen eine schnellere Reaktion auf potenzielle Bedrohungen.
Hier sind einige der wichtigsten Vorteile, die die Objekterkennung für verschiedene Branchen bringen kann:
Während diese Vorteile deutlich machen, wie sich die Objekterkennung auf verschiedene Anwendungsfälle auswirkt, ist es auch wichtig, die Herausforderungen bei der Umsetzung zu berücksichtigen. Hier sind einige der wichtigsten Herausforderungen:
Die Objekterkennung ist ein bahnbrechendes Werkzeug der Computer Vision, mit dem Maschinen Objekte in Bildern und Videos erkennen und lokalisieren können. Sie wird in vielen Bereichen eingesetzt, von selbstfahrenden Autos bis zum Gesundheitswesen, und macht Aufgaben einfacher, sicherer und effizienter. Mit neueren Modellen wie YOLO11 können Unternehmen ganz einfach benutzerdefinierte Objekterkennungsmodelle erstellen, um spezielle Computer-Vision-Anwendungen zu entwickeln.
Obwohl es einige Herausforderungen gibt, wie z. B. Bedenken hinsichtlich der Privatsphäre und der Unsichtbarkeit von Objekten, ist die Objekterkennung eine zuverlässige Technologie. Ihre Fähigkeit, Aufgaben zu automatisieren, visuelle Daten in Echtzeit zu verarbeiten und sich mit anderen Vision AI-Tools zu integrieren, macht sie zu einem wesentlichen Bestandteil von Spitzeninnovationen.
Um mehr zu erfahren, besuche unser GitHub-Repository und beteilige dich an unserer Community. Entdecke Innovationen in Bereichen wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Schau dir unsere yolo an und erwecke deine Vision AI-Projekte zum Leben. 🚀
Beginne deine Reise in die Zukunft des maschinellen Lernens