Glossar

Vision Transformer (ViT)

Entdecke, wie Vision Transformers (ViT) die Computer Vision durch ihre Selbstaufmerksamkeit revolutionieren und sich bei Klassifizierungs-, Erkennungs- und Segmentierungsaufgaben auszeichnen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Vision Transformers (ViT) haben das Computersehen revolutioniert, indem sie transformatorbasierte Architekturen, die traditionell in der natürlichen Sprachverarbeitung (NLP) verwendet werden, für Bildverarbeitungsaufgaben einsetzen. Im Gegensatz zu Convolutional Neural Networks (CNNs), die auf Faltungsoperationen beruhen, nutzen ViTs Mechanismen der Selbstbeobachtung, um Bilddaten zu analysieren und zu verarbeiten, und bieten so einen flexibleren und skalierbaren Ansatz für verschiedene Herausforderungen des Sehens.

Wie Vision Transformers funktionieren

ViTs unterteilen ein Eingangsbild in kleinere Bereiche fester Größe, glätten sie und behandeln jeden Bereich als "Token", ähnlich wie Wörter im NLP. Diese Token werden dann in hochdimensionale Vektoren eingebettet und durch mehrere Schichten von Transformationskodierern geleitet, wo Mechanismen der Selbstaufmerksamkeit es dem Modell ermöglichen, sich auf relevante Teile des Bildes zu konzentrieren. Diese Struktur ermöglicht es ViTs, sowohl lokale als auch globale Abhängigkeiten effektiv zu erfassen.

ViTs verlassen sich auf Positionskodierungen, um räumliche Informationen beizubehalten - ein entscheidender Aspekt von Bilddaten, der traditionellen Transformatoren fehlt. Durch das Erlernen der Beziehungen zwischen Patches können ViTs bei Aufgaben wie Bildklassifizierung, Objekterkennung und Segmentierung Spitzenleistungen erzielen.

Vorteile gegenüber CNNs

  1. Skalierbarkeit: ViTs skalieren im Vergleich zu CNNs besser mit großen Datensätzen und eignen sich daher für Anwendungen, die hochauflösende Bilder oder vielfältige Datensätze erfordern.
  2. Globaler Kontext: Der Mechanismus der Selbstaufmerksamkeit ermöglicht es ViTs, weitreichende Abhängigkeiten in einem Bild zu modellieren, während CNNs auf lokale rezeptive Felder beschränkt sind.
  3. Flexibilität: ViTs können mit minimalen architektonischen Änderungen an verschiedene Aufgaben angepasst werden, indem sie vortrainierte Modelle wie ImageNet nutzen.

Erfahre mehr über die Funktionsweise von Transformatoren im Glossareintrag Transformator.

Anwendungen von Vision Transformers

Bildklassifizierung

ViTs eignen sich hervorragend für Bildklassifizierungsaufgaben, da sie globale Bildmerkmale erfassen können. Vortrainierte ViTs wie der Vision Transformer von Googlehaben bei Benchmarks wie ImageNet die höchste Genauigkeit erreicht. ViTs werden zum Beispiel im Gesundheitswesen eingesetzt, um medizinische Bilder zu klassifizieren und so bei der Diagnose von Krankheiten zu helfen.

Erforsche Bildklassifizierungsaufgaben mit Ultralytics YOLO Modellen.

Objekt-Erkennung

ViTs werden zunehmend in Objekterkennungspipelines eingesetzt und ersetzen die traditionellen faltungsbasierten Backbones. Modelle wie DETR (DEtection TRansformer) zeigen, wie effektiv ViTs bei der Erkennung und Lokalisierung von Objekten sind, ohne dass sie auf Region Proposal Networks angewiesen sind.

Entdecke Lösungen zur Objekterkennung mit Ultralytics YOLO.

Bildsegmentierung

Indem sie die Selbstaufmerksamkeit nutzen, bieten ViTs genaue und effiziente Lösungen für die semantische und instanzielle Segmentierung. Zu den Anwendungen gehört das autonome Fahren, bei dem eine präzise Segmentierung auf Pixelebene für die Erkennung von Straßenschildern, Fußgängern und Fahrzeugen entscheidend ist.

Erfahre mehr über Segmentierungsaufgaben bei der Bildsegmentierung.

Beispiele aus der realen Welt

  1. Gesundheitswesen: ViTs werden in der medizinischen Bildgebung für Aufgaben wie Tumorerkennung und Organsegmentierung eingesetzt. Ihre Fähigkeit, hochauflösende Bilder zu analysieren, hilft bei der Früherkennung und Behandlungsplanung. So können zum Beispiel die medizinischen Bildgebungsfunktionen vonUltralytics YOLO11 mit ViT-basierten Backbones erweitert werden, um die Präzision zu verbessern.

  2. Autonome Fahrzeuge: ViTs unterstützen die Sichtsysteme in autonomen Fahrzeugen und ermöglichen die Erkennung von Hindernissen, Fahrbahnmarkierungen und Verkehrsschildern in Echtzeit. Ihr globales Kontextbewusstsein verbessert die Sicherheit und die Entscheidungsfindung.

Entdecke mehr Anwendungen von KI beim Selbstfahren mit Vision AI Lösungen.

Herausforderungen und Überlegungen

ViTs bieten zwar erhebliche Vorteile, aber sie bringen auch Herausforderungen mit sich:

  • Datenanforderungen: ViTs funktionieren am besten mit großen Datensätzen, da ihre Selbstbeobachtungsmechanismen umfangreiche Daten benötigen, um effektiv zu verallgemeinern.
  • Computerkosten: Das Training von ViTs erfordert aufgrund ihrer quadratischen Komplexität in der Selbstbeobachtung erhebliche Rechenressourcen.

Um diese Probleme zu lösen, wurden Ansätze wie hybride Modelle, die ViTs mit CNNs kombinieren, und Techniken wie Patch Merging eingeführt, um ViTs effizienter zu machen.

Verwandte Konzepte

  • Transformatoren: ViTs sind eine spezielle Anwendung von Transformatoren, die ursprünglich für NLP entwickelt wurden. Erfahre mehr über Transformatoren.
  • Selbstaufmerksamkeit: Der zentrale Mechanismus bei ViTs, der es ihnen ermöglicht, sich auf verschiedene Teile des Bildes zu konzentrieren. Erforsche die Selbstaufmerksamkeit, um ein tieferes Verständnis zu erlangen.

ViTs verschieben weiterhin die Grenzen der Computer Vision und bieten innovative Lösungen für alle Branchen. Mit Tools wie Ultralytics HUB können Entwickler/innen das Potenzial von ViTs in realen Anwendungen erforschen, den Einsatz vereinfachen und KI-Lösungen skalieren.

Alles lesen