Lernen Sie Florence-2 kennen, das visuelle Sprachmodell von Microsoft, das eine verbesserte Objekterkennung, Segmentierung und Zero-Shot-Leistung mit hoher Effizienz bietet.

Lernen Sie Florence-2 kennen, das visuelle Sprachmodell von Microsoft, das eine verbesserte Objekterkennung, Segmentierung und Zero-Shot-Leistung mit hoher Effizienz bietet.
Im Juni 2024 stellte Microsoft Florence-2 vor, ein multimodales visuelles Sprachmodell (VLM), das für eine Vielzahl von Aufgaben ausgelegt ist, darunter Objekterkennung, Segmentierung, Bildbeschriftung und Erdung. Florence-2 setzt neue Maßstäbe für die Zero-Shot-Performance, d. h. es kann Aufgaben ohne vorheriges spezifisches Training durchführen und verfügt über eine kleinere Modellgröße als andere moderne Bildsprachmodelle.
Es ist mehr als nur ein weiteres Modell. Die Vielseitigkeit und die verbesserte Leistung von Florence-2 haben das Potenzial, verschiedene Branchen erheblich zu beeinflussen, indem sie die Genauigkeit verbessern und den Bedarf an umfangreichen Schulungen verringern. In diesem Artikel werden wir die innovativen Merkmale von Florence-2 untersuchen, seine Leistung mit anderen VLMs vergleichen und seine potenziellen Anwendungen diskutieren.
Florence-2 kann eine Vielzahl von Aufgaben innerhalb eines einzigen, einheitlichen Rahmens bewältigen. Die beeindruckenden Fähigkeiten des Modells sind zum Teil seinem umfangreichen Trainingsdatensatz FLD-5B zu verdanken. FLD-5B umfasst 5,4 Milliarden Anmerkungen zu 126 Millionen Bildern. Dieser umfassende Datensatz wurde eigens erstellt, um Florence-2 mit den Fähigkeiten auszustatten, die erforderlich sind, um ein breites Spektrum von Sehaufgaben mit hoher Genauigkeit und Effizienz zu bewältigen.
Hier ein genauerer Blick auf die Aufgaben, die Florence-2 unterstützt:
Das Modell unterstützt sowohl textbasierte als auch regionenbasierte Aufgaben. Für Aufgaben, die bestimmte Regionen eines Bildes betreffen, werden dem Vokabular des Modells spezielle Orts-Token hinzugefügt. Diese Token helfen dem Modell, verschiedene Formen zu verstehen, z. B. Rechtecke um Objekte (Box-Darstellung), vierseitige Formen (Quad-Box-Darstellung) und vielseitige Formen (Polygon-Darstellung). Das Modell wird mit einer Methode namens Cross-Entropy-Loss trainiert, mit der es lernt, indem es seine Vorhersagen mit den richtigen Antworten vergleicht und seine internen Parameter entsprechend anpasst.
Der FLD-5B-Datensatz enthält verschiedene Arten von Annotationen: Textbeschreibungen, Paare von Regionen und Text sowie Kombinationen von Text, Phrasen und Regionen. Er wurde in einem zweistufigen Prozess erstellt, der die Datenerfassung und die Annotation umfasst. Die Bilder stammten aus populären Datensätzen wie ImageNet-22k, Object 365, Open Images, Conceptual Captions und LAION. Die Annotationen im FLD-5B-Datensatz sind größtenteils synthetisch, d. h. sie wurden automatisch generiert und nicht manuell beschriftet.
Zunächst erstellten spezialisierte Modelle, die sich auf bestimmte Aufgaben wie Objekterkennung oder Segmentierung spezialisiert hatten, diese Anmerkungen. Dann wurde ein Filter- und Verbesserungsprozess eingesetzt, um sicherzustellen, dass die Anmerkungen detailliert und genau sind. Nach der Entfernung von Rauschen wurde der Datensatz einer iterativen Verfeinerung unterzogen, bei der die Ergebnisse von Florence-2 zur kontinuierlichen Aktualisierung und Verbesserung der Annotationen verwendet wurden.
Die Modellarchitektur von Florence-2 folgt einem Sequenz-zu-Sequenz-Lernansatz. Das bedeutet, dass das Modell eine Eingabesequenz (z. B. ein Bild mit einer Textaufforderung) verarbeitet und schrittweise eine Ausgabesequenz (z. B. eine Beschreibung oder ein Etikett) erzeugt. Im Rahmen des Sequenz-zu-Sequenz-Ansatzes wird jede Aufgabe als Übersetzungsproblem behandelt: Das Modell nimmt ein Eingabebild und eine aufgabenspezifische Eingabeaufforderung und erzeugt die entsprechende Ausgabe.
Das Herzstück der Modellarchitektur ist ein Multimodalitäts-Encoder-Decoder-Transformer, der einen Bild-Encoder und einen Multimodalitäts-Encoder-Decoder kombiniert. Der Bildkodierer mit der Bezeichnung DaViT (Data-efficient Vision Transformer) verarbeitet Eingabebilder, indem er sie in visuelle Token-Einbettungen umwandelt - kompakte Darstellungen des Bildes, die sowohl räumliche (wo sich die Dinge befinden) als auch semantische (was die Dinge sind) Informationen erfassen. Diese visuellen Token werden dann mit Texteinbettungen (Darstellungen des Textes) kombiniert, so dass das Modell Text- und visuelle Daten nahtlos zusammenführen kann.
Florence-2 hebt sich von anderen visuellen Sprachmodellen durch seine beeindruckenden Zero-Shot-Fähigkeiten ab. Im Gegensatz zu Modellen wie PaliGemma, die eine umfangreiche Feinabstimmung benötigen, um sich an verschiedene Aufgaben anzupassen, funktioniert Florence-2 sofort nach dem Auspacken. Außerdem kann Florence-2 mit größeren Modellen wie GPT-4V und Flamingo konkurrieren, die oft viel mehr Parameter haben, aber nicht immer die Leistung von Florence-2 erreichen. So erzielt Florence-2 beispielsweise bessere Zero-Shot-Ergebnisse als Kosmos-2, obwohl Kosmos-2 mehr als doppelt so viele Parameter hat.
In Benchmark-Tests hat Florence-2 bemerkenswerte Leistungen bei Aufgaben wie COCO-Beschriftungen und dem Verstehen von Begriffen gezeigt. Es übertraf Modelle wie PolyFormer und UNINEXT bei der Objekterkennung und -segmentierung auf dem COCO-Datensatz. Es ist eine äußerst wettbewerbsfähige Wahl für reale Anwendungen, bei denen sowohl Leistung als auch Ressourceneffizienz entscheidend sind.
Florence-2 kann in vielen verschiedenen Branchen eingesetzt werden, z. B. in der Unterhaltung, der Barrierefreiheit, dem Bildungswesen usw. Gehen wir ein paar Beispiele durch, um ein besseres Verständnis zu bekommen.
Wenn Sie auf einer Streaming-Plattform versuchen zu entscheiden, was Sie sich ansehen möchten, lesen Sie vielleicht eine Zusammenfassung eines Films, um Ihnen die Auswahl zu erleichtern. Was wäre, wenn die Plattform auch eine detaillierte Beschreibung des Filmplakats liefern könnte? Florence-2 kann dies durch Bildunterschriften ermöglichen, die beschreibenden Text für Bilder erzeugen. Florence-2 kann detaillierte Beschreibungen von Filmplakaten generieren und so Streaming-Plattformen für sehbehinderte Nutzer zugänglicher machen. Durch die Analyse der visuellen Elemente eines Plakats, wie z. B. Figuren, Kulissen und Text, kann Florence-2 detaillierte Beschreibungen erstellen, die den Inhalt und die Stimmung des Plakats vermitteln. Das Bild unten zeigt, wie detailliert Florence-2 die Beschreibung erstellen kann.
Hier sind einige weitere Beispiele, bei denen Bildunterschriften hilfreich sein können:
Florence-2 kann auch verwendet werden, um kulinarische Erlebnisse zu bereichern. So könnte ein Online-Kochbuch Florence-2 nutzen, um Teile eines komplexen Rezeptbildes visuell zu erden und zu beschriften. Visuelles Grounding hilft hier, indem es bestimmte Teile des Bildes mit dem entsprechenden beschreibenden Text verknüpft. Jede Zutat und jeder Schritt kann genau beschriftet und erklärt werden, so dass es für Heimköche einfacher wird, dem Rezept zu folgen und die Rolle jeder Komponente im Gericht zu verstehen.
OCR mit regionenbasierter Verarbeitung, die sich auf die Extraktion von Text aus bestimmten Bereichen eines Dokuments konzentriert, kann sich in Bereichen wie der Buchhaltung als nützlich erweisen. Bestimmte Bereiche von Finanzdokumenten können analysiert werden, um automatisch wichtige Informationen wie Transaktionsdetails, Kontonummern und Fälligkeitsdaten zu extrahieren. Dadurch, dass weniger Daten manuell eingegeben werden müssen, werden Fehler minimiert und die Bearbeitungszeiten verkürzt. Finanzinstitute können damit Aufgaben wie Rechnungsbearbeitung, Belegabgleich und Scheckverrechnung rationalisieren, was zu schnelleren Transaktionen und besserem Kundenservice führt.
Die bereichsbasierte Segmentierung, bei der ein Bild in aussagekräftige Teile unterteilt wird, um eine gezielte Analyse und detaillierte Inspektion zu ermöglichen, kann industrielle Anwendungen vorantreiben, die die Präzision und Effizienz in verschiedenen Prozessen verbessern. Durch die Fokussierung auf bestimmte Bereiche innerhalb eines Bildes ermöglicht diese Technologie eine detaillierte Prüfung und Analyse von Komponenten und Produkten. Im Hinblick auf die Qualitätskontrolle können Defekte oder Unstimmigkeiten in Materialien wie Risse oder Ausrichtungsfehler erkannt werden, wodurch sichergestellt wird, dass nur Produkte von höchster Qualität auf den Markt kommen.
Sie verbessert auch automatisierte Montagelinien, indem sie Roboterarme zu bestimmten Teilen führt und die Platzierung und Montage von Komponenten optimiert. In der Bestandsverwaltung hilft sie bei der Verfolgung und Überwachung des Zustands und Standorts von Waren, was zu einer effizienteren Logistik und geringeren Ausfallzeiten führt. Insgesamt steigert die regionenbasierte Segmentierung die Genauigkeit und Produktivität, was zu Kosteneinsparungen und höherer Produktqualität in der Industrie führt.
Es zeichnet sich ein Trend ab, dass KI-Modelle immer leichter werden, ohne an Leistung einzubüßen. Florence-2 ist ein großer Schritt nach vorn in Bezug auf visuelle Sprachmodelle. Es kann verschiedene Aufgaben wie Objekterkennung, Segmentierung, Bildbeschriftung und Erdung mit beeindruckender Zero-Shot-Leistung bewältigen. Trotz seiner geringen Größe ist Florence-2 effizient und multifunktional, was es in Bezug auf Anwendungen in verschiedenen Branchen äußerst nützlich macht. Modelle wie Florence-2 bieten mehr Möglichkeiten und erweitern das Potenzial für KI-Innovationen.
Erfahren Sie mehr über KI, indem Sie unser GitHub-Repository besuchen und unserer Community beitreten. Informieren Sie sich auf unseren Lösungsseiten über KI-Anwendungen in der Fertigung und Landwirtschaft. 🚀