Lerne Florence-2 kennen, das visuelle Sprachmodell von Microsoft, das eine verbesserte Objekterkennung, Segmentierung und Zero-Shot-Leistung mit großer Effizienz bietet.
Im Juni 2024 stellte Microsoft Florence-2 vor, ein multimodales visuelles Sprachmodell (VLM), das für eine Vielzahl von Aufgaben wie Objekterkennung, Segmentierung, Bildbeschriftung und Erdung ausgelegt ist. Florence-2 setzt neue Maßstäbe für die Zero-Shot-Performance, d. h. es kann Aufgaben ohne vorheriges spezifisches Training durchführen und verfügt über eine geringere Modellgröße als andere moderne Bildsprachmodelle.
Es ist mehr als nur ein weiteres Modell. Die Vielseitigkeit und die verbesserte Leistung von Florence-2 haben das Potenzial, verschiedene Branchen erheblich zu beeinflussen, indem sie die Genauigkeit verbessern und den Bedarf an umfangreichen Schulungen verringern. In diesem Artikel gehen wir auf die innovativen Eigenschaften von Florence-2 ein, vergleichen seine Leistung mit anderen VLMs und erörtern seine Einsatzmöglichkeiten.
Florence-2 kann eine Vielzahl von Aufgaben in einem einzigen, einheitlichen Rahmen bewältigen. Die beeindruckenden Fähigkeiten des Modells sind zum Teil dem umfangreichen Trainingsdatensatz FLD-5B zu verdanken. FLD-5B enthält 5,4 Milliarden Anmerkungen zu 126 Millionen Bildern. Dieser umfassende Datensatz wurde eigens erstellt, um Florence-2 die Fähigkeiten zu verleihen, die es braucht, um eine große Bandbreite an Sehaufgaben mit hoher Genauigkeit und Effizienz zu bewältigen.
Hier ist ein genauerer Blick auf die Aufgaben, die Florence-2 unterstützt:
Das Modell unterstützt sowohl textbasierte als auch regionenbasierte Aufgaben. Für Aufgaben, bei denen es um bestimmte Regionen eines Bildes geht, werden dem Vokabular des Modells spezielle Ortsmarker hinzugefügt. Diese Token helfen dem Modell, verschiedene Formen zu verstehen, z. B. Rechtecke um Objekte (Box-Darstellung), vierseitige Formen (Quad-Box-Darstellung) und vielseitige Formen (Polygon-Darstellung). Das Modell wird mit einer Methode namens Cross-Entropy-Loss trainiert, mit der es lernt, indem es seine Vorhersagen mit den richtigen Antworten vergleicht und seine internen Parameter entsprechend anpasst.
Der FLD-5B-Datensatz enthält verschiedene Arten von Annotationen: Textbeschreibungen, Paare aus Regionen und Text sowie Kombinationen aus Text, Phrasen und Regionen. Er wurde in einem zweistufigen Prozess erstellt, der die Datenerfassung und die Beschriftung umfasst. Die Bilder stammten aus bekannten Datensätzen wie ImageNet-22k, Object 365, Open Images, Conceptual Captions und LAION. Die Beschriftungen im FLD-5B-Datensatz sind größtenteils synthetisch, d. h. sie wurden automatisch erstellt und nicht manuell beschriftet.
Zunächst erstellten spezialisierte Modelle, die für bestimmte Aufgaben wie die Erkennung von Objekten oder die Segmentierung qualifiziert waren, diese Beschriftungen. Dann wurde ein Filter- und Verbesserungsprozess eingesetzt, um sicherzustellen, dass die Anmerkungen detailliert und genau sind. Nach dem Entfernen von Störfaktoren wurde der Datensatz iterativ verfeinert, wobei die Ergebnisse von Florence-2 zur kontinuierlichen Aktualisierung und Verbesserung der Anmerkungen verwendet wurden.
Die Modellarchitektur von Florence-2 folgt einem Sequenz-zu-Sequenz-Lernansatz. Das bedeutet, dass das Modell eine Eingabesequenz (z. B. ein Bild mit einem Textprompt) verarbeitet und Schritt für Schritt eine Ausgabesequenz (z. B. eine Beschreibung oder ein Etikett) erzeugt. Im Rahmen des Sequence-to-Sequence-Ansatzes wird jede Aufgabe als Übersetzungsproblem behandelt: Das Modell nimmt ein Eingabebild und eine aufgabenspezifische Eingabeaufforderung und erzeugt die entsprechende Ausgabe.
Das Herzstück der Modellarchitektur ist ein Multimodalitäts-Encoder-Decoder-Transformer, der einen Bild-Encoder und einen Multimodalitäts-Encoder-Decoder kombiniert. Der Bildkodierer namens DaViT (Data-efficient Vision Transformer) verarbeitet die eingegebenen Bilder, indem er sie in visuelle Token-Einbettungen umwandelt - kompakte Darstellungen des Bildes, die sowohl räumliche (wo die Dinge sind) als auch semantische (was die Dinge sind) Informationen erfassen. Diese visuellen Token werden dann mit Texteinbettungen (Darstellungen des Textes) kombiniert, sodass das Modell Text- und visuelle Daten nahtlos zusammenführen kann.
Florence-2 hebt sich von anderen visuellen Sprachmodellen durch seine beeindruckenden Zero-Shot-Fähigkeiten ab. Im Gegensatz zu Modellen wie PaliGemma, die eine umfangreiche Feinabstimmung benötigen, um sich an verschiedene Aufgaben anzupassen, funktioniert Florence-2 sofort nach dem Auspacken. Außerdem kann Florence-2 mit größeren Modellen wie GPT-4V und Flamingo mithalten, die oft viel mehr Parameter haben, aber nicht immer mit der Leistung von Florence-2 mithalten können. So erzielt Florence-2 zum Beispiel bessere Zero-Shot-Ergebnisse als Kosmos-2, obwohl Kosmos-2 mehr als doppelt so viele Parameter hat.
In Benchmark-Tests hat Florence-2 bemerkenswerte Leistungen bei Aufgaben wie COCO-Captioning und dem Verstehen von Begriffen gezeigt. Es übertraf Modelle wie PolyFormer und UNINEXT bei der Objekterkennung und Segmentierung im COCO-Datensatz. Sie ist eine äußerst wettbewerbsfähige Wahl für reale Anwendungen, bei denen sowohl Leistung als auch Ressourceneffizienz entscheidend sind.
Florence-2 kann in vielen verschiedenen Branchen eingesetzt werden, z. B. in der Unterhaltung, der Barrierefreiheit, der Bildung usw. Gehen wir ein paar Beispiele durch, um ein besseres Verständnis zu bekommen.
Wenn du dich auf einer Streaming-Plattform für einen Film entscheidest, liest du vielleicht eine Zusammenfassung, um dir die Auswahl zu erleichtern. Was wäre, wenn die Plattform auch eine detaillierte Beschreibung des Filmplakats liefern könnte? Florence-2 macht das möglich, indem es Bilder mit Bildunterschriften versieht, die einen beschreibenden Text für Bilder erzeugen. Florence-2 kann detaillierte Beschreibungen von Filmplakaten erstellen und so Streaming-Plattformen für sehbehinderte Nutzer/innen zugänglicher machen. Durch die Analyse der visuellen Elemente eines Plakats, wie Figuren, Kulissen und Text, kann Florence-2 detaillierte Beschreibungen erstellen, die den Inhalt und die Stimmung des Plakats vermitteln. Das Bild unten zeigt, wie detailliert Florence-2 die Beschreibung erstellen kann.
Hier sind einige weitere Beispiele, bei denen Bildunterschriften hilfreich sein können:
Florence-2 kann auch verwendet werden, um kulinarische Erlebnisse zu bereichern. Ein Online-Kochbuch könnte Florence-2 zum Beispiel nutzen, um Teile eines komplexen Rezeptbildes visuell zu erden und zu beschriften. Visuelles Grounding hilft hier, indem es bestimmte Teile des Bildes mit dem entsprechenden beschreibenden Text verknüpft. Jede Zutat und jeder Arbeitsschritt kann genau beschriftet und erklärt werden, so dass es für Hobbyköche einfacher ist, dem Rezept zu folgen und die Rolle der einzelnen Komponenten im Gericht zu verstehen.
OCR mit regionenbasierter Verarbeitung, die sich auf die Extraktion von Text aus bestimmten Bereichen eines Dokuments konzentriert, kann in Bereichen wie der Buchhaltung sehr nützlich sein. Bestimmte Bereiche von Finanzdokumenten können analysiert werden, um automatisch wichtige Informationen wie Transaktionsdetails, Kontonummern und Fälligkeitsdaten zu extrahieren. Dadurch, dass weniger Daten manuell eingegeben werden müssen, werden Fehler minimiert und die Bearbeitungszeiten verkürzt. Finanzinstitute können damit Aufgaben wie die Bearbeitung von Rechnungen, den Abgleich von Belegen und die Verrechnung von Schecks rationalisieren, was zu schnelleren Transaktionen und einem besseren Kundenservice führt.
Die regionenbasierte Segmentierung, bei der ein Bild in aussagekräftige Teile für eine gezielte Analyse und detaillierte Prüfung unterteilt wird, kann industrielle Anwendungen vorantreiben, die die Präzision und Effizienz in verschiedenen Prozessen verbessern. Durch die Fokussierung auf bestimmte Bereiche innerhalb eines Bildes ermöglicht diese Technologie eine detaillierte Inspektion und Analyse von Komponenten und Produkten. Bei der Qualitätskontrolle kann sie Fehler oder Unstimmigkeiten in Materialien wie Risse oder Ausrichtungsfehler erkennen und so sicherstellen, dass nur Produkte von höchster Qualität auf den Markt kommen.
Sie verbessert auch automatisierte Montagelinien, indem sie Roboterarme zu bestimmten Teilen führt und die Platzierung und Montage von Komponenten optimiert. In der Bestandsverwaltung hilft sie, den Zustand und den Standort von Waren zu verfolgen und zu überwachen, was zu einer effizienteren Logistik und geringeren Ausfallzeiten führt. Insgesamt steigert die regionenbasierte Segmentierung die Genauigkeit und Produktivität, was zu Kosteneinsparungen und einer höheren Produktqualität in der Industrie führt.
Es zeichnet sich ein Trend ab, dass KI-Modelle immer leichter werden, ohne an Leistung einzubüßen. Florence-2 ist ein großer Schritt nach vorn in Bezug auf visuelle Sprachmodelle. Es kann verschiedene Aufgaben wie Objekterkennung, Segmentierung, Bildbeschriftung und Erdung mit einer beeindruckenden Zero-Shot-Leistung bewältigen. Trotz seiner geringen Größe ist Florence-2 effizient und multifunktional, was es für Anwendungen in verschiedenen Branchen äußerst nützlich macht. Modelle wie Florence-2 bringen mehr Möglichkeiten auf den Tisch und erweitern das Potenzial für KI-Innovationen.
Erfahre mehr über KI, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Auf unseren Lösungsseiten erfährst du mehr über KI-Anwendungen in der Produktion und der Landwirtschaft. 🚀
Beginne deine Reise in die Zukunft des maschinellen Lernens