Grüner Scheck
Link in die Zwischenablage kopiert

Florence-2: Microsoft's neuestes Vision-Language Modell

Lerne Florence-2 kennen, das visuelle Sprachmodell von Microsoft, das eine verbesserte Objekterkennung, Segmentierung und Zero-Shot-Leistung mit großer Effizienz bietet.

Im Juni 2024 stellte Microsoft Florence-2 vor, ein multimodales visuelles Sprachmodell (VLM), das für eine Vielzahl von Aufgaben wie Objekterkennung, Segmentierung, Bildbeschriftung und Erdung ausgelegt ist. Florence-2 setzt neue Maßstäbe für die Zero-Shot-Performance, d. h. es kann Aufgaben ohne vorheriges spezifisches Training durchführen und verfügt über eine geringere Modellgröße als andere moderne Bildsprachmodelle.

Es ist mehr als nur ein weiteres Modell. Die Vielseitigkeit und die verbesserte Leistung von Florence-2 haben das Potenzial, verschiedene Branchen erheblich zu beeinflussen, indem sie die Genauigkeit verbessern und den Bedarf an umfangreichen Schulungen verringern. In diesem Artikel gehen wir auf die innovativen Eigenschaften von Florence-2 ein, vergleichen seine Leistung mit anderen VLMs und erörtern seine Einsatzmöglichkeiten.

Was ist Florenz-2?

Florence-2 kann eine Vielzahl von Aufgaben in einem einzigen, einheitlichen Rahmen bewältigen. Die beeindruckenden Fähigkeiten des Modells sind zum Teil dem umfangreichen Trainingsdatensatz FLD-5B zu verdanken. FLD-5B enthält 5,4 Milliarden Anmerkungen zu 126 Millionen Bildern. Dieser umfassende Datensatz wurde eigens erstellt, um Florence-2 die Fähigkeiten zu verleihen, die es braucht, um eine große Bandbreite an Sehaufgaben mit hoher Genauigkeit und Effizienz zu bewältigen. 

Hier ist ein genauerer Blick auf die Aufgaben, die Florence-2 unterstützt:

  • Objekt-Erkennung: Sie kann Objekte in Bildern mit hoher Präzision erkennen und lokalisieren.
  • Segmentierung: Bei dieser Aufgabe geht es darum, ein Bild in aussagekräftige Segmente zu unterteilen, um die Analyse und Interpretation zu erleichtern.
  • Bildbeschriftung: Florence-2 ist in der Lage, beschreibende Bildunterschriften zu erstellen, die Kontext und Details liefern.
  • Visuelles Grounding: Das Modell kann bestimmte Phrasen oder Wörter in einer Bildunterschrift mit den entsprechenden Regionen im Bild verknüpfen.
  • Leistung zum Nulltarif: Er kann Aufgaben ohne spezielles Training ausführen.
Abb. 1. Verstehen, wie Florence-2 trainiert wurde.

Das Modell unterstützt sowohl textbasierte als auch regionenbasierte Aufgaben. Für Aufgaben, bei denen es um bestimmte Regionen eines Bildes geht, werden dem Vokabular des Modells spezielle Ortsmarker hinzugefügt. Diese Token helfen dem Modell, verschiedene Formen zu verstehen, z. B. Rechtecke um Objekte (Box-Darstellung), vierseitige Formen (Quad-Box-Darstellung) und vielseitige Formen (Polygon-Darstellung). Das Modell wird mit einer Methode namens Cross-Entropy-Loss trainiert, mit der es lernt, indem es seine Vorhersagen mit den richtigen Antworten vergleicht und seine internen Parameter entsprechend anpasst.

Erstellen des FLD-5B-Datensatzes

Der FLD-5B-Datensatz enthält verschiedene Arten von Annotationen: Textbeschreibungen, Paare aus Regionen und Text sowie Kombinationen aus Text, Phrasen und Regionen. Er wurde in einem zweistufigen Prozess erstellt, der die Datenerfassung und die Beschriftung umfasst. Die Bilder stammten aus bekannten Datensätzen wie ImageNet-22k, Object 365, Open Images, Conceptual Captions und LAION. Die Beschriftungen im FLD-5B-Datensatz sind größtenteils synthetisch, d. h. sie wurden automatisch erstellt und nicht manuell beschriftet. 

Abb. 2. Erstellen des FLD-5B-Datensatzes.

Zunächst erstellten spezialisierte Modelle, die für bestimmte Aufgaben wie die Erkennung von Objekten oder die Segmentierung qualifiziert waren, diese Beschriftungen. Dann wurde ein Filter- und Verbesserungsprozess eingesetzt, um sicherzustellen, dass die Anmerkungen detailliert und genau sind. Nach dem Entfernen von Störfaktoren wurde der Datensatz iterativ verfeinert, wobei die Ergebnisse von Florence-2 zur kontinuierlichen Aktualisierung und Verbesserung der Anmerkungen verwendet wurden. 

Die Modellarchitektur von Florence-2 verstehen

Die Modellarchitektur von Florence-2 folgt einem Sequenz-zu-Sequenz-Lernansatz. Das bedeutet, dass das Modell eine Eingabesequenz (z. B. ein Bild mit einem Textprompt) verarbeitet und Schritt für Schritt eine Ausgabesequenz (z. B. eine Beschreibung oder ein Etikett) erzeugt. Im Rahmen des Sequence-to-Sequence-Ansatzes wird jede Aufgabe als Übersetzungsproblem behandelt: Das Modell nimmt ein Eingabebild und eine aufgabenspezifische Eingabeaufforderung und erzeugt die entsprechende Ausgabe.

Abb. 3. Florence-2's Vision-Language Model Architecture.

Das Herzstück der Modellarchitektur ist ein Multimodalitäts-Encoder-Decoder-Transformer, der einen Bild-Encoder und einen Multimodalitäts-Encoder-Decoder kombiniert. Der Bildkodierer namens DaViT (Data-efficient Vision Transformer) verarbeitet die eingegebenen Bilder, indem er sie in visuelle Token-Einbettungen umwandelt - kompakte Darstellungen des Bildes, die sowohl räumliche (wo die Dinge sind) als auch semantische (was die Dinge sind) Informationen erfassen. Diese visuellen Token werden dann mit Texteinbettungen (Darstellungen des Textes) kombiniert, sodass das Modell Text- und visuelle Daten nahtlos zusammenführen kann.

Vergleich von Florence-2 mit anderen VLMs

Florence-2 hebt sich von anderen visuellen Sprachmodellen durch seine beeindruckenden Zero-Shot-Fähigkeiten ab. Im Gegensatz zu Modellen wie PaliGemma, die eine umfangreiche Feinabstimmung benötigen, um sich an verschiedene Aufgaben anzupassen, funktioniert Florence-2 sofort nach dem Auspacken. Außerdem kann Florence-2 mit größeren Modellen wie GPT-4V und Flamingo mithalten, die oft viel mehr Parameter haben, aber nicht immer mit der Leistung von Florence-2 mithalten können. So erzielt Florence-2 zum Beispiel bessere Zero-Shot-Ergebnisse als Kosmos-2, obwohl Kosmos-2 mehr als doppelt so viele Parameter hat.

In Benchmark-Tests hat Florence-2 bemerkenswerte Leistungen bei Aufgaben wie COCO-Captioning und dem Verstehen von Begriffen gezeigt. Es übertraf Modelle wie PolyFormer und UNINEXT bei der Objekterkennung und Segmentierung im COCO-Datensatz. Sie ist eine äußerst wettbewerbsfähige Wahl für reale Anwendungen, bei denen sowohl Leistung als auch Ressourceneffizienz entscheidend sind.

Anwendungen von Florenz-2

Florence-2 kann in vielen verschiedenen Branchen eingesetzt werden, z. B. in der Unterhaltung, der Barrierefreiheit, der Bildung usw. Gehen wir ein paar Beispiele durch, um ein besseres Verständnis zu bekommen.

Anwendungen der Bilduntertitelung

Wenn du dich auf einer Streaming-Plattform für einen Film entscheidest, liest du vielleicht eine Zusammenfassung, um dir die Auswahl zu erleichtern. Was wäre, wenn die Plattform auch eine detaillierte Beschreibung des Filmplakats liefern könnte? Florence-2 macht das möglich, indem es Bilder mit Bildunterschriften versieht, die einen beschreibenden Text für Bilder erzeugen. Florence-2 kann detaillierte Beschreibungen von Filmplakaten erstellen und so Streaming-Plattformen für sehbehinderte Nutzer/innen zugänglicher machen. Durch die Analyse der visuellen Elemente eines Plakats, wie Figuren, Kulissen und Text, kann Florence-2 detaillierte Beschreibungen erstellen, die den Inhalt und die Stimmung des Plakats vermitteln. Das Bild unten zeigt, wie detailliert Florence-2 die Beschreibung erstellen kann.

Abb. 4. Ein Beispiel für eine von Florence-2 generierte Bildunterschrift. 

Hier sind einige weitere Beispiele, bei denen Bildunterschriften hilfreich sein können:

  • E-Commerce: Bildunterschriften können detaillierte Beschreibungen von Produktbildern liefern, die den Kunden helfen, Produkteigenschaften und -details besser zu verstehen.
  • Reisen und Tourismus: Sie kann detaillierte Beschreibungen von Sehenswürdigkeiten und Attraktionen in Reiseführern und Apps liefern.
  • Bildung: Bildunterschriften können pädagogische Bilder und Diagramme beschriften und beschreiben und so das Lehren und Lernen unterstützen.
  • Immobilien: Es kann detaillierte Beschreibungen von Immobilienbildern liefern, die die Merkmale und Annehmlichkeiten für potenzielle Käufer hervorheben.

Visuelle Erdung beim Kochen

Florence-2 kann auch verwendet werden, um kulinarische Erlebnisse zu bereichern. Ein Online-Kochbuch könnte Florence-2 zum Beispiel nutzen, um Teile eines komplexen Rezeptbildes visuell zu erden und zu beschriften. Visuelles Grounding hilft hier, indem es bestimmte Teile des Bildes mit dem entsprechenden beschreibenden Text verknüpft. Jede Zutat und jeder Arbeitsschritt kann genau beschriftet und erklärt werden, so dass es für Hobbyköche einfacher ist, dem Rezept zu folgen und die Rolle der einzelnen Komponenten im Gericht zu verstehen.

Abb. 5. Ein Beispiel für visuelle Erdung mit Florence-2. 

Regionenbasierte OCR für Finanzdokumente

OCR mit regionenbasierter Verarbeitung, die sich auf die Extraktion von Text aus bestimmten Bereichen eines Dokuments konzentriert, kann in Bereichen wie der Buchhaltung sehr nützlich sein. Bestimmte Bereiche von Finanzdokumenten können analysiert werden, um automatisch wichtige Informationen wie Transaktionsdetails, Kontonummern und Fälligkeitsdaten zu extrahieren. Dadurch, dass weniger Daten manuell eingegeben werden müssen, werden Fehler minimiert und die Bearbeitungszeiten verkürzt. Finanzinstitute können damit Aufgaben wie die Bearbeitung von Rechnungen, den Abgleich von Belegen und die Verrechnung von Schecks rationalisieren, was zu schnelleren Transaktionen und einem besseren Kundenservice führt. 

Abb. 6. Ein Beispiel für die Extraktion von OCR mit Region mit Florence-2. 

Regionalbasierte Segmentierung in industriellen Anwendungen

Die regionenbasierte Segmentierung, bei der ein Bild in aussagekräftige Teile für eine gezielte Analyse und detaillierte Prüfung unterteilt wird, kann industrielle Anwendungen vorantreiben, die die Präzision und Effizienz in verschiedenen Prozessen verbessern. Durch die Fokussierung auf bestimmte Bereiche innerhalb eines Bildes ermöglicht diese Technologie eine detaillierte Inspektion und Analyse von Komponenten und Produkten. Bei der Qualitätskontrolle kann sie Fehler oder Unstimmigkeiten in Materialien wie Risse oder Ausrichtungsfehler erkennen und so sicherstellen, dass nur Produkte von höchster Qualität auf den Markt kommen.

Abb. 7. Ein Beispiel für die Segmentierung anhand von Regionen mit Florence-2.

Sie verbessert auch automatisierte Montagelinien, indem sie Roboterarme zu bestimmten Teilen führt und die Platzierung und Montage von Komponenten optimiert. In der Bestandsverwaltung hilft sie, den Zustand und den Standort von Waren zu verfolgen und zu überwachen, was zu einer effizienteren Logistik und geringeren Ausfallzeiten führt. Insgesamt steigert die regionenbasierte Segmentierung die Genauigkeit und Produktivität, was zu Kosteneinsparungen und einer höheren Produktqualität in der Industrie führt.

Die wichtigsten Erkenntnisse

Es zeichnet sich ein Trend ab, dass KI-Modelle immer leichter werden, ohne an Leistung einzubüßen. Florence-2 ist ein großer Schritt nach vorn in Bezug auf visuelle Sprachmodelle. Es kann verschiedene Aufgaben wie Objekterkennung, Segmentierung, Bildbeschriftung und Erdung mit einer beeindruckenden Zero-Shot-Leistung bewältigen. Trotz seiner geringen Größe ist Florence-2 effizient und multifunktional, was es für Anwendungen in verschiedenen Branchen äußerst nützlich macht. Modelle wie Florence-2 bringen mehr Möglichkeiten auf den Tisch und erweitern das Potenzial für KI-Innovationen.

Erfahre mehr über KI, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Auf unseren Lösungsseiten erfährst du mehr über KI-Anwendungen in der Produktion und der Landwirtschaft. 🚀

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens