Glossar

Computer Vision (CV)

Entdecke das Potenzial von KI mit Computer Vision! Erforsche ihre Rolle bei der Objekterkennung, im Gesundheitswesen, bei selbstfahrenden Autos und darüber hinaus. Erfahre jetzt mehr!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Computer Vision (CV) ist ein Spezialgebiet der Künstlichen Intelligenz (KI), das es Computern und Systemen ermöglicht, sinnvolle Informationen aus digitalen Bildern, Videos und anderen visuellen Daten abzuleiten. Im Wesentlichen zielt es darauf ab, das menschliche visuelle Verständnis nachzubilden und es Maschinen zu ermöglichen, visuelle Daten zu "sehen", zu interpretieren und auf dieser Grundlage Entscheidungen zu treffen. Dazu werden visuelle Informationen mithilfe komplexer Algorithmen und Deep-Learning-Modelle (DL) verarbeitet, um Objekte zu erkennen, Szenen zu verstehen und wichtige Erkenntnisse zu gewinnen. Im Gegensatz zur einfachen Bildverarbeitung, bei der es in erster Linie darum geht, Bilddaten zu verbessern oder zu manipulieren (z. B. die Helligkeit anzupassen oder Filter anzuwenden), geht es beim Computer Vision darum, den Inhalt und den Kontext der Bilder zu verstehen.

Bedeutung für KI und maschinelles Lernen

Computer Vision ist für viele moderne KI- und ML-Systeme von grundlegender Bedeutung, da sie Maschinen die Möglichkeit bietet, mit der physischen Welt zu interagieren und sie durch visuelle Wahrnehmung zu verstehen. Das Aufkommen von Techniken wie Convolutional Neural Networks (CNNs), die vom menschlichen visuellen Kortex inspiriert sind, hat die KI revolutioniert. Diese Netze ermöglichen es den Modellen, automatisch hierarchische Merkmale aus riesigen Mengen visueller Daten zu erlernen, was zu erheblichen Verbesserungen der Genauigkeit bei verschiedenen Computer-Vision-Aufgaben führt. Dieser Fortschritt ermöglicht anspruchsvolle Anwendungen, die zuvor unerreichbar waren, und macht die KI zu einem Eckpfeiler der aktuellen KI-Entwicklung und zu einem wichtigen Treiber für KI-Anwendungen, die unsere Zukunft verändern.

Wichtige Konzepte und Aufgaben

Computer Vision umfasst eine breite Palette von Aufgaben, die darauf abzielen, verschiedene Arten von Informationen aus visuellen Daten zu extrahieren. Zu den wichtigsten Aufgaben gehören:

  • Bildklassifizierung: Die Zuordnung eines einzelnen Labels oder einer Kategorie zu einem ganzen Bild (z. B. die Identifizierung eines Bildes als "Katze" oder "Hund"). Datensätze wie ImageNet werden häufig für diese Aufgabe verwendet.
  • Objekterkennung: Die Erkennung des Vorhandenseins und der Position mehrerer Objekte in einem Bild, in der Regel durch das Zeichnen von Begrenzungsrahmen (Bounding Boxes) um die Objekte und die Zuweisung von Klassenbezeichnungen (z. B. das Auffinden aller "Autos" und "Fußgänger" in einer Straßenszene). Modelle wie Ultralytics YOLO werden häufig für eine effiziente Objekterkennung verwendet.
  • Bildsegmentierung: Die Klassifizierung jedes Pixels in einem Bild als zu einem bestimmten Objekt oder einer Region gehörend. Dies liefert ein detaillierteres Verständnis als die Objekterkennung. Es gibt die semantische Segmentierung (Kennzeichnung von Pixeln nach Kategorien) und die Instanzsegmentierung (Unterscheidung einzelner Objektinstanzen innerhalb derselben Kategorie). Siehe einen Leitfaden zur Instanzsegmentierung und -verfolgung.
  • Pose Estimation: Die Erkennung der Position und Ausrichtung von Schlüsselpunkten eines Objekts, die häufig zur Schätzung der menschlichen Haltung (Identifizierung von Gelenken) oder zur Verfolgung starrer Objekte verwendet wird. Hier erfährst du mehr über das individuelle Training für die Posenschätzung von Hunden.
  • Objektverfolgung: Identifizierung und Verfolgung bestimmter Objekte über mehrere Bilder in einer Videosequenz. Dabei wird die Objekterkennung mit einer zeitlichen Analyse kombiniert. Entdecke die Objekterkennung und -verfolgung mit Ultralytics YOLOv8.
  • Optischer Fluss: Schätzung der Bewegung von Objekten oder der Kamera zwischen aufeinanderfolgenden Bildern in einem Video.

Computer Vision vs. verwandte Bereiche

Es ist hilfreich, Computer Vision von verwandten Disziplinen zu unterscheiden:

  • Bildbearbeitung: Konzentriert sich auf die Bearbeitung von Bildern auf einer niedrigeren Ebene, oft als Vorverarbeitungsschritt für CV. Zu den Aufgaben gehören Rauschunterdrückung, Kontrastverbesserung und Filterung mithilfe von Bibliotheken wie OpenCV. Die Bildverarbeitung verändert die Pixel, interpretiert aber nicht unbedingt den Bildinhalt. Lies mehr über die wichtigsten Unterschiede zwischen Computer Vision und Bildverarbeitung.
  • Maschinelles Sehen (MV): Obwohl es Überschneidungen mit CV gibt, bezieht sich MV in der Regel auf die Anwendung von Bildverarbeitungstechnologie in industriellen Umgebungen für die automatische Inspektion, Prozesskontrolle und Roboterführung. Bildverarbeitungssysteme arbeiten oft in kontrollierten Umgebungen mit speziellen Beleuchtungs- und Kameraeinstellungen und konzentrieren sich auf Zuverlässigkeit und Geschwindigkeit für bestimmte Aufgaben wie die Qualitätskontrolle in der Fertigung. Mehr über Machine Vision.

Technologien und Rahmenwerke

Bei der Entwicklung von Computer Vision-Anwendungen kommen verschiedene Tools, Bibliotheken und Frameworks zum Einsatz:

  • Bibliotheken: OpenCV (Open Source Computer Vision Library) ist eine grundlegende Bibliothek mit einer großen Sammlung von Algorithmen für die Bildverarbeitung und klassische CV-Aufgaben. Weitere Bibliotheken sind Pillow für die Bildbearbeitung in Python und Scikit-image für Bildverarbeitungsalgorithmen.
  • Deep Learning Frameworks: PyTorch und TensorFlow sind die führenden Frameworks für die Erstellung und das Training von Deep Learning-Modellen, einschließlich derer, die in CV verwendet werden.
  • Modelle: Moderne Modelle wie YOLO (You Only Look Once) ermöglichen eine effiziente Objekterkennung in Echtzeit. Architekturen wie ResNet sind weit verbreitet und Vision Transformers (ViT) sind eine neuere Klasse von Modellen, die zunehmend an Bedeutung gewinnt. Vergleiche die Leistung verschiedener YOLO .
  • Plattformen: Tools wie Ultralytics HUB rationalisieren den Prozess des Trainings, des Einsatzes und der Verwaltung von CV-Modellen und bieten Funktionen wie Cloud-Training und Datensatzverwaltung. Andere Plattformen wie Roboflow und Weights & Biases bieten ergänzende Tools für die Datenkommentierung und die Verfolgung von Experimenten.

Anwendungen in der realen Welt

Bildverarbeitungsanwendungen werden in verschiedenen Bereichen immer häufiger eingesetzt:

Alles lesen