Entdecke, wie Vision Transformers (ViT) die Computer Vision durch ihre Selbstaufmerksamkeit revolutionieren und sich bei Klassifizierungs-, Erkennungs- und Segmentierungsaufgaben auszeichnen.
Vision Transformers (ViT) haben das Computersehen revolutioniert, indem sie transformatorbasierte Architekturen, die traditionell in der natürlichen Sprachverarbeitung (NLP) verwendet werden, für Bildverarbeitungsaufgaben einsetzen. Im Gegensatz zu Convolutional Neural Networks (CNNs), die auf Faltungsoperationen beruhen, nutzen ViTs Mechanismen der Selbstbeobachtung, um Bilddaten zu analysieren und zu verarbeiten, und bieten so einen flexibleren und skalierbaren Ansatz für verschiedene Herausforderungen des Sehens.
ViTs unterteilen ein Eingangsbild in kleinere Bereiche fester Größe, glätten sie und behandeln jeden Bereich als "Token", ähnlich wie Wörter im NLP. Diese Token werden dann in hochdimensionale Vektoren eingebettet und durch mehrere Schichten von Transformationskodierern geleitet, wo Mechanismen der Selbstaufmerksamkeit es dem Modell ermöglichen, sich auf relevante Teile des Bildes zu konzentrieren. Diese Struktur ermöglicht es ViTs, sowohl lokale als auch globale Abhängigkeiten effektiv zu erfassen.
ViTs verlassen sich auf Positionskodierungen, um räumliche Informationen beizubehalten - ein entscheidender Aspekt von Bilddaten, der traditionellen Transformatoren fehlt. Durch das Erlernen der Beziehungen zwischen Patches können ViTs bei Aufgaben wie Bildklassifizierung, Objekterkennung und Segmentierung Spitzenleistungen erzielen.
Erfahre mehr über die Funktionsweise von Transformatoren im Glossareintrag Transformator.
ViTs eignen sich hervorragend für Bildklassifizierungsaufgaben, da sie globale Bildmerkmale erfassen können. Vortrainierte ViTs wie der Vision Transformer von Googlehaben bei Benchmarks wie ImageNet die höchste Genauigkeit erreicht. ViTs werden zum Beispiel im Gesundheitswesen eingesetzt, um medizinische Bilder zu klassifizieren und so bei der Diagnose von Krankheiten zu helfen.
Erforsche Bildklassifizierungsaufgaben mit Ultralytics YOLO Modellen.
ViTs werden zunehmend in Objekterkennungspipelines eingesetzt und ersetzen die traditionellen faltungsbasierten Backbones. Modelle wie DETR (DEtection TRansformer) zeigen, wie effektiv ViTs bei der Erkennung und Lokalisierung von Objekten sind, ohne dass sie auf Region Proposal Networks angewiesen sind.
Entdecke Lösungen zur Objekterkennung mit Ultralytics YOLO.
Indem sie die Selbstaufmerksamkeit nutzen, bieten ViTs genaue und effiziente Lösungen für die semantische und instanzielle Segmentierung. Zu den Anwendungen gehört das autonome Fahren, bei dem eine präzise Segmentierung auf Pixelebene für die Erkennung von Straßenschildern, Fußgängern und Fahrzeugen entscheidend ist.
Erfahre mehr über Segmentierungsaufgaben bei der Bildsegmentierung.
Gesundheitswesen: ViTs werden in der medizinischen Bildgebung für Aufgaben wie Tumorerkennung und Organsegmentierung eingesetzt. Ihre Fähigkeit, hochauflösende Bilder zu analysieren, hilft bei der Früherkennung und Behandlungsplanung. So können zum Beispiel die medizinischen Bildgebungsfunktionen vonUltralytics YOLO11 mit ViT-basierten Backbones erweitert werden, um die Präzision zu verbessern.
Autonome Fahrzeuge: ViTs unterstützen die Sichtsysteme in autonomen Fahrzeugen und ermöglichen die Erkennung von Hindernissen, Fahrbahnmarkierungen und Verkehrsschildern in Echtzeit. Ihr globales Kontextbewusstsein verbessert die Sicherheit und die Entscheidungsfindung.
Entdecke mehr Anwendungen von KI beim Selbstfahren mit Vision AI Lösungen.
ViTs bieten zwar erhebliche Vorteile, aber sie bringen auch Herausforderungen mit sich:
Um diese Probleme zu lösen, wurden Ansätze wie hybride Modelle, die ViTs mit CNNs kombinieren, und Techniken wie Patch Merging eingeführt, um ViTs effizienter zu machen.
ViTs verschieben weiterhin die Grenzen der Computer Vision und bieten innovative Lösungen für alle Branchen. Mit Tools wie Ultralytics HUB können Entwickler/innen das Potenzial von ViTs in realen Anwendungen erforschen, den Einsatz vereinfachen und KI-Lösungen skalieren.