Grüner Scheck
Link in die Zwischenablage kopiert

KI-Forschungs-Updates von Meta FAIR: SAM 2.1 und CoTracker3

Entdecke die neuesten KI-Modelle von Meta FAIR, SAM 2.1 und CoTracker3, die fortschrittliche Segmentierungs- und Tracking-Fähigkeiten für verschiedene, reale Anwendungen bieten.

Künstliche Intelligenz (KI) ist ein Forschungsgebiet, das in letzter Zeit vor Aufregung und Energie nur so strotzt, denn neue Innovationen und Durchbrüche kommen schneller als je zuvor. In den letzten Wochen hat das Team von Meta's Fundamental AI Research (FAIR) eine Reihe von Tools und Modellen vorgestellt, mit denen Herausforderungen in verschiedenen Bereichen der KI angegangen werden können. Dazu gehören Updates, die sich auf so unterschiedliche Bereiche wie Gesundheitswesen, Robotik und Augmented Reality auswirken könnten.

Das aktualisierte Modell SAM 2.1 verbessert zum Beispiel die Objektsegmentierung und macht es einfacher, Objekte in Bildern und Videos genau zu identifizieren und zu trennen. CoTracker3 konzentriert sich auf die Punktverfolgung und hilft dabei, Punkte in Videobildern zu verfolgen, auch wenn sich Objekte bewegen oder teilweise verdeckt werden. 

Meta hat außerdem leichtere und schnellere Versionen seines Llama-Sprachmodells für die effiziente Nutzung auf dem Gerät sowie eine neue taktile Sensortechnologie für die Robotik vorgestellt. In diesem Artikel nehmen wir die neuesten Versionen von Meta FAIR unter die Lupe und schauen uns an, was jedes Tool bietet. Los geht's!

Meta's Enhanced Segment Anything Model: SAM 2.1

Die Segmentierung von Objekten, eine wichtige Aufgabe der Computer Vision, ermöglicht es, unterschiedliche Objekte in einem Bild oder Video zu identifizieren und zu trennen, um die Analyse bestimmter Bereiche zu erleichtern. Seit seiner Veröffentlichung wurde Metas Segment Anything Model 2 (SAM 2 ) in verschiedenen Bereichen wie der medizinischen Bildgebung und der Meteorologie zur Objektsegmentierung eingesetzt. Auf der Grundlage des Feedbacks aus der Community hat Meta nun SAM 2.1 vorgestellt, eine verbesserte Version, die einige der Probleme des ursprünglichen Modells beheben soll und insgesamt eine bessere Leistung bietet.

Abb. 1. SAM 2.1 Benchmarking der Modellleistung.

SAM 2.1 enthält Aktualisierungen, um dank neuer Techniken zur Datenerweiterung besser mit visuell ähnlichen und kleineren Objekten umgehen zu können. Außerdem wird der Umgang des Modells mit Verdeckungen (wenn Teile eines Objekts verdeckt sind) verbessert, indem es mit längeren Videosequenzen trainiert wird, sodass es sich Objekte im Laufe der Zeit "merken" und erkennen kann, auch wenn sie vorübergehend verdeckt sind. Wenn zum Beispiel jemand ein Video von einer Person filmt, die hinter einem Baum geht, kann SAM 2.1 die Person verfolgen, wenn sie auf der anderen Seite wieder auftaucht, und sich an die Position und Bewegung des Objekts erinnern, um Lücken zu füllen, wenn die Sicht kurz unterbrochen wird.

Parallel zu diesen Updates hat Meta die SAM 2 Developer Suite veröffentlicht, die Open-Source-Trainingscode und eine vollständige Demo-Infrastruktur bereitstellt, damit Entwickler SAM 2.1 mit ihren eigenen Daten optimieren und in eine Reihe von Anwendungen integrieren können.

CoTracker3: Metas Tracking-Modell und seine Funktionen und Updates

Eine weitere interessante Aufgabe der Computer Vision ist die Punktverfolgung. Dabei geht es darum, bestimmte Punkte oder Merkmale über mehrere Bilder in einem Video zu verfolgen. Nehmen wir das Video eines Radfahrers, der eine Strecke entlangfährt. Mit der Punktverfolgung kann das Modell Punkte am Radfahrer, wie den Helm oder die Räder, verfolgen, selbst wenn sie für einen Moment von Hindernissen verdeckt werden.

Die Punktverfolgung ist für Anwendungen wie 3D-Rekonstruktion, Robotik und Videobearbeitung unerlässlich. Herkömmliche Modelle beruhen oft auf komplexen Strukturen und großen synthetischen Datensätzen, was ihre Effektivität bei der Anwendung in der realen Welt einschränkt. 

Das CoTracker3 Tracking-Modell von Meta behebt diese Einschränkungen, indem es die Architektur des Modells vereinfacht. Außerdem wird einPseudo-Labeling-Verfahren eingeführt, mit dem das Modell aus echten, unkommentierten Videos lernen kann, wodurch CoTracker3 effizienter und skalierbarer für den praktischen Einsatz wird.

Abb. 2. Vergleich von CoTracker3 mit anderen Tracking-Modellen.

CoTracker3 zeichnet sich unter anderem dadurch aus, dass er gut mit Verdeckungen umgehen kann. Mithilfe von Cross-Track-Attention, einer Technik, die es dem Modell ermöglicht, Informationen über mehrere verfolgte Punkte zu teilen, kann CoTracker3 die Positionen von verdeckten Punkten ableiten, indem er sich auf sichtbare Punkte bezieht. Auf diese Weise ist CoTracker3 besonders effektiv in dynamischen Umgebungen, z. B. bei der Verfolgung einer Person durch eine belebte Szene. 

CoTracker3 bietet außerdem einen Online- und einen Offline-Modus. Der Online-Modus ermöglicht Tracking in Echtzeit. Der Offlinemodus kann für ein umfassenderes Tracking ganzer Videosequenzen verwendet werden, ideal für Aufgaben wie Videoschnitt oder Animation

Andere Updates und Forschung von Meta FAIR

Während SAM 2.1 und CoTracker3 die neuesten Fortschritte von Meta im Bereich Computer Vision zeigen, gibt es auch spannende Updates in anderen Bereichen der KI, wie der Verarbeitung natürlicher Sprache (NLP) und der Robotik. Werfen wir einen Blick auf einige dieser anderen aktuellen Entwicklungen von Meta FAIR.

Meta's Spirit LM: KI-Innovationen in Sprache und multimodalen Modellen

Spirit LM von Meta ist ein neues multimodales Sprachmodell, das Text- und Sprachfähigkeiten kombiniert, sodass sich die Interaktion mit KI natürlicher anfühlt. Im Gegensatz zu herkömmlichen Modellen, die nur Text oder nur Sprache verarbeiten, kann Spirit LM nahtlos zwischen beiden wechseln. 

Spirit LM kann Sprache auf eine Weise verstehen und erzeugen, die sich menschlicher anfühlt. So kann er zum Beispiel virtuelle Assistenten verbessern, die sowohl zuhören als auch in gesprochener oder geschriebener Sprache antworten können, oder Barrierefreiheitstools unterstützen, die zwischen Sprache und Text konvertieren. 

Abb. 3. Ein Beispiel für Text-to-Speech mit Meta Spirit LM.

Außerdem hat Meta Techniken entwickelt, um große Sprachmodelle effizienter zu machen. Eine davon, Layer Skip, hilft dabei, den Rechenbedarf und die Energiekosten zu senken, indem nur die Schichten aktiviert werden, die für eine bestimmte Aufgabe notwendig sind. Dies ist besonders nützlich für Anwendungen auf Geräten mit begrenztem Speicher und Stromverbrauch. 

Um die Notwendigkeit, KI-Anwendungen auf solchen Geräten einzusetzen, noch einen Schritt weiter zu gehen, hat Meta auch quantisierte Versionen seiner Llama-Modelle auf den Markt gebracht. Diese Modelle sind komprimiert, damit sie auf mobilen Geräten schneller laufen, ohne an Genauigkeit einzubüßen. 

Ein Blick auf die Zukunft der Optimierung mit Meta Lingua

Da die KI-Modelle immer größer und komplexer werden, ist die Optimierung ihres Trainingsprozesses von entscheidender Bedeutung. Zur Optimierung hat Meta Lingua eine flexible und effiziente Codebasis eingeführt, die das Training großer Sprachmodelle erleichtert. Dank des modularen Aufbaus von Meta Lingua können Forscher ihre Experimente schnell anpassen und skalieren. 

Forscher/innen können weniger Zeit mit der technischen Einrichtung und mehr Zeit mit der eigentlichen Forschung verbringen. Die Codebasis ist außerdem schlank und einfach zu integrieren, sodass sie sich sowohl für kleine Experimente als auch für große Projekte eignet. Durch die Beseitigung dieser technischen Hürden hilft Meta Lingua den Forschern, schneller Fortschritte zu machen und neue Ideen einfacher zu testen.

Abb. 4. Ein Überblick über Meta Lingua.

Metas Verbesserungen bei der KI-Sicherheit

Mit den Fortschritten der Quantencomputertechnologie ergeben sich neue Herausforderungen für die Datensicherheit. Im Gegensatz zu den heutigen Computern werden Quantencomputer komplexe Berechnungen wahrscheinlich viel schneller lösen können. Das bedeutet, dass sie möglicherweise die Verschlüsselungsmethoden brechen können, die derzeit zum Schutz sensibler Daten verwendet werden. Deshalb wird die Forschung in diesem Bereich immer wichtiger - die Entwicklung neuer Methoden zum Schutz von Daten ist unerlässlich, wenn wir uns auf die Zukunft des Quantencomputers vorbereiten.

Um dieses Problem anzugehen, hat Meta Salsa entwickelt, ein Tool zur Stärkung der kryptografischen Post-Quantum-Sicherheit. Salsa hilft Forschern dabei, KI-gesteuerte Angriffe zu testen und potenzielle Schwachstellen zu identifizieren, damit sie die Schwachstellen in kryptografischen Systemen besser verstehen und beseitigen können. Durch die Simulation fortgeschrittener Angriffsszenarien liefert Salsa wertvolle Erkenntnisse, die die Entwicklung stärkerer, widerstandsfähigerer Sicherheitsmaßnahmen für das Quantenzeitalter leiten können.

KI bei Meta: Neueste Innovationen in der Robotik

Metas neueste Arbeit im Bereich Robotik konzentriert sich darauf, KI dabei zu helfen, natürlicher mit der physischen Welt zu interagieren, indem sie die Berührungswahrnehmung, die Geschicklichkeit und die Zusammenarbeit mit Menschen verbessert. Der Meta Digit 360 ist ein fortschrittlicher taktiler Sensor, der Robotern einen verfeinerten Tastsinn verleiht. Die Sensoren helfen Robotern, Details wie Textur, Druck und sogar die Form von Objekten zu erkennen. Dank dieser Erkenntnisse können Roboter Objekte mit größerer Präzision handhaben, was in Bereichen wie dem Gesundheitswesen und der Produktion von entscheidender Bedeutung ist.

Hier sind einige der wichtigsten Funktionen, die das Meta Digit 360 bietet:

  • Er ist mit 18 verschiedenen Sensoren ausgestattet, um eine große Bandbreite an taktilen Details zu erfassen.
  • Der Sensor kann Druckveränderungen bis zu 1 Millinewton erkennen und ermöglicht es den Robotern, auf feine Texturen und subtile Bewegungen zu reagieren.
  • Er enthält über 8 Millionen Taxel (winzige Messpunkte) auf der Oberfläche der Fingerspitze, die eine hochauflösende Karte der Berührungsinformationen liefern.

Eine Erweiterung des Meta Digit 360 ist der Meta Digit Plexus, eine Plattform, die verschiedene Berührungssensoren in eine einzige Roboterhand integriert. Auf diese Weise können Roboter Berührungsinformationen von mehreren Punkten gleichzeitig verarbeiten, ähnlich wie die menschlichen Hände sensorische Daten sammeln.

Abb. 5. Der Meta Digit Plexus.

Die Weichen für das nächste Kapitel der KI stellen

Die neuesten KI-Updates von Meta, die von Fortschritten in der Computer Vision mit SAM 2.1 und CoTracker3 bis hin zu neuen Entwicklungen in Sprachmodellen und Robotik reichen, zeigen, wie sich KI stetig von der Theorie zu praktischen, wirkungsvollen Lösungen entwickelt. 

Diese Werkzeuge sollen die KI in verschiedenen Bereichen anpassungsfähiger und nützlicher machen. Sie helfen bei allem, von der Segmentierung komplexer Bilder über das Verstehen menschlicher Sprache bis hin zur Zusammenarbeit mit uns in physischen Räumen. 

Indem Meta FAIR den Schwerpunkt auf Zugänglichkeit und reale Anwendungen legt, bringt es uns einer Zukunft näher, in der KI reale Herausforderungen bewältigen und unser tägliches Leben auf sinnvolle Weise verbessern kann. 

Bist du neugierig auf KI? Tritt unserer Community bei, um die neuesten Updates und Einblicke zu erhalten, und sieh dir unser GitHub-Repository an. Du kannst auch herausfinden, wie Computer Vision in Branchen wie selbstfahrenden Autos und der Landwirtschaft eingesetzt werden kann!

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens