Controllo verde
Link copiato negli appunti

Aggiornamenti sulla ricerca AI da Meta FAIR: SAM 2.1 e CoTracker3

Esplora gli ultimi modelli di AI di Meta FAIR, SAM 2.1 e CoTracker3, che offrono funzionalità avanzate di segmentazione e tracciamento per diverse applicazioni reali.

L'intelligenza artificiale (AI) è un campo di ricerca che negli ultimi tempi è in fermento, con innovazioni e scoperte più rapide che mai. Nelle scorse settimane, il team Fundamental AI Research (FAIR) di Meta ha presentato una serie di strumenti e modelli volti ad affrontare le sfide in diverse aree dell'IA. Questi rilasci includono aggiornamenti che potrebbero avere un impatto su campi diversi come l'assistenza sanitaria, la robotica e la realtà aumentata.

Ad esempio, il modello aggiornato SAM 2.1 migliora la segmentazione degli oggetti, rendendo più facile l'identificazione e la separazione accurata degli oggetti nelle immagini e nei video. Nel frattempo, CoTracker3 si concentra sul tracciamento dei punti, aiutando a tenere traccia dei punti nei fotogrammi video anche quando gli oggetti si spostano o vengono parzialmente bloccati. 

Meta ha anche introdotto versioni più leggere e veloci del suo modello di linguaggio Llama per un uso efficiente sul dispositivo, oltre a una nuova tecnologia di rilevamento tattile per la robotica. In questo articolo analizzeremo le ultime novità di Meta FAIR, analizzando le caratteristiche di ogni strumento. Cominciamo!

Il modello Enhanced Segment Anything di Meta: SAM 2.1

La segmentazione degli oggetti, un'attività chiave della computer vision, permette di identificare e separare oggetti distinti all'interno di un'immagine o di un video, facilitando l'analisi di specifiche aree di interesse. Sin dal suo rilascio, il Segment Anything Model 2 (SAM 2 ) di Meta è stato utilizzato per la segmentazione degli oggetti in diversi campi, come l'imaging medico e la meteorologia. Sulla base dei feedback ricevuti dalla comunità, Meta ha introdotto SAM 2.1, una versione migliorata progettata per affrontare alcuni dei problemi incontrati con il modello originale e per offrire prestazioni complessivamente migliori.

Figura 1. SAM 2.1 Benchmarking delle prestazioni del modello.

SAM La versione 2.1 include aggiornamenti per gestire meglio oggetti visivamente simili e più piccoli, grazie a nuove tecniche di incremento dei dati. Inoltre, migliora il modo in cui il modello gestisce l'occlusione (quando parti di un oggetto sono nascoste alla vista) addestrandolo su sequenze video più lunghe, consentendogli di "ricordare" e riconoscere gli oggetti nel tempo, anche se sono temporaneamente bloccati. Ad esempio, se qualcuno sta filmando una persona che cammina dietro un albero, SAM 2.1 è in grado di seguire la persona mentre riappare dall'altra parte, utilizzando la sua memoria della posizione e del movimento dell'oggetto per colmare i vuoti quando la visuale viene brevemente interrotta.

Oltre a questi aggiornamenti, Meta ha rilasciato la SAM 2 Developer Suite, che fornisce un codice di formazione open-source e un'infrastruttura demo completa per consentire agli sviluppatori di mettere a punto SAM 2.1 con i propri dati e di integrarlo in una serie di applicazioni.

CoTracker3: Il modello di tracciamento di Meta, le sue caratteristiche e i suoi aggiornamenti

Un'altra interessante attività di computer vision è il tracciamento dei punti. Si tratta di seguire punti o caratteristiche specifiche in più fotogrammi di un video. Considera un video di un ciclista che percorre una pista: il tracciamento dei punti permette al modello di tenere traccia dei punti del ciclista, come il casco o le ruote, anche se sono nascosti da ostacoli per un momento.

Il tracciamento dei punti è essenziale per applicazioni come la ricostruzione 3D, la robotica e l'editing video. I modelli tradizionali spesso si basano su configurazioni complesse e grandi set di dati sintetici, il che limita la loro efficacia quando vengono applicati a scenari reali. 

Il modello di tracciamento CoTracker3 di Meta affronta queste limitazioni semplificando l'architettura del modello. Inoltre, introduce unatecnica di pseudo-etichettatura che consente al modello di imparare da video reali non annotati, rendendo CoTracker3 più efficiente e scalabile per l'uso pratico.

Figura 2. Confronto tra CoTracker3 e altri modelli di tracciamento.

Una delle caratteristiche che contraddistingue CoTracker3 è la capacità di gestire bene le occlusioni. Utilizzando l'attenzione trasversale, una tecnica che permette al modello di condividere le informazioni tra più punti tracciati, CoTracker3 può dedurre le posizioni dei punti nascosti facendo riferimento a quelli visibili. In questo modo, CoTracker3 è progettato per essere molto efficace in ambienti dinamici, come ad esempio seguire una persona in una scena affollata. 

CoTracker3 offre anche modalità online e offline. La modalità online offre un tracciamento in tempo reale. Mentre la modalità offline può essere utilizzata per un tracciamento più completo di intere sequenze video, ideale per attività come l'editing video o l'animazione

Altri aggiornamenti e ricerche di Meta FAIR

Mentre SAM 2.1 e CoTracker3 mostrano gli ultimi progressi di Meta nella computer vision, ci sono anche interessanti aggiornamenti in altre aree dell'IA, come l'elaborazione del linguaggio naturale (NLP) e la robotica. Diamo un'occhiata ad alcuni degli altri recenti sviluppi di Meta FAIR.

Meta's Spirit LM: innovazioni AI nei modelli linguistici e multimodali

Spirit LM di Meta è un nuovo modello linguistico multimodale che combina funzionalità testuali e vocali , rendendo più naturali le interazioni con l'intelligenza artificiale. A differenza dei modelli tradizionali che gestiscono solo il testo o solo il parlato, Spirit LM può passare da un modello all'altro senza soluzione di continuità. 

Spirit LM è in grado di comprendere e generare il linguaggio in modi più simili a quelli umani. Ad esempio, può migliorare gli assistenti virtuali che possono ascoltare e rispondere in linguaggio parlato o scritto, oppure supportare gli strumenti di accessibilità che convertono il parlato in testo. 

Figura 3. Un esempio di sintesi vocale con l'uso di Meta Spirit LM.

Inoltre, Meta ha sviluppato delle tecniche per rendere più efficienti i modelli linguistici di grandi dimensioni. Una di queste, chiamata Layer Skip, aiuta a ridurre il fabbisogno computazionale e i costi energetici attivando solo i livelli necessari per un determinato compito. Questo è particolarmente utile per le applicazioni su dispositivi con memoria e potenza limitate. 

Per rispondere all'esigenza di distribuire applicazioni di intelligenza artificiale su questi dispositivi, Meta ha lanciato le versioni quantizzate dei suoi modelli Llama. Questi modelli sono compressi per essere eseguiti più velocemente sui dispositivi mobili senza sacrificare la precisione

Uno sguardo al futuro dell'ottimizzazione con Meta Lingua

Con la crescita delle dimensioni e della complessità dei modelli di intelligenza artificiale, l'ottimizzazione del loro processo di addestramento è diventata fondamentale. Per quanto riguarda l'ottimizzazione, Meta ha introdotto Meta Lingua, una base di codice flessibile ed efficiente che facilita l'addestramento di modelli linguistici di grandi dimensioni. Il design modulare di Meta Lingua consente ai ricercatori di personalizzare e scalare rapidamente i loro esperimenti. 

I ricercatori possono dedicare meno tempo alla configurazione tecnica e più tempo alla ricerca vera e propria. Il codice è inoltre leggero e facile da integrare, il che lo rende adatto sia a piccoli esperimenti che a progetti su larga scala. Eliminando questi ostacoli tecnici, Meta Lingua aiuta i ricercatori a fare progressi più rapidi e a testare nuove idee con maggiore facilità.

Figura 4. Una panoramica di Meta Lingua.

I miglioramenti di Meta nella sicurezza dell'intelligenza artificiale

I progressi della tecnologia di calcolo quantistico comportano nuove sfide per la sicurezza dei dati. A differenza dei computer di oggi, è probabile che i computer quantistici siano in grado di risolvere calcoli complessi molto più velocemente. Ciò significa che potrebbero potenzialmente infrangere i metodi di crittografia attualmente utilizzati per proteggere le informazioni sensibili. Ecco perché la ricerca in questo campo sta diventando sempre più importante: lo sviluppo di nuovi modi per proteggere i dati è essenziale per prepararsi al futuro dell'informatica quantistica.

Per affrontare questo problema, Meta ha sviluppato Salsa, uno strumento che mira a rafforzare la sicurezza crittografica post-quantistica. Salsa aiuta i ricercatori a testare gli attacchi guidati dall'intelligenza artificiale e a identificare i potenziali punti deboli, consentendo loro di comprendere e affrontare meglio le vulnerabilità dei sistemi crittografici. Simulando scenari di attacco avanzati, Salsa fornisce preziose indicazioni che possono guidare lo sviluppo di misure di sicurezza più forti e resistenti per l'era quantistica.

AI a Meta: Le ultime innovazioni nella robotica

L'ultimo lavoro di Meta nel campo della robotica si concentra sull'aiutare l'intelligenza artificiale a interagire in modo più naturale con il mondo fisico, migliorando la percezione del tatto, la destrezza e la collaborazione con gli esseri umani. In particolare, Meta Digit 360 è un sensore tattile avanzato che offre ai robot un senso del tatto raffinato. I sensori aiutano i robot a rilevare dettagli come la consistenza, la pressione e persino le forme degli oggetti. Grazie a queste intuizioni, i robot possono maneggiare gli oggetti con maggiore precisione, un aspetto fondamentale in settori come quello sanitario e manifatturiero.

Ecco alcune delle caratteristiche principali di Meta Digit 360:

  • È dotato di 18 funzioni di rilevamento distinte per poter catturare un'ampia gamma di dettagli tattili.
  • Il sensore è in grado di rilevare variazioni di pressione di appena 1 millinewton, consentendo ai robot di rispondere a texture sottili e movimenti impercettibili.
  • Include oltre 8 milioni di taxel (piccoli punti di rilevamento) sulla superficie del polpastrello, fornendo una mappa ad alta risoluzione delle informazioni tattili.

Un'estensione del Meta Digit 360 è il Meta Digit Plexus, una piattaforma che integra diversi sensori tattili in un'unica mano robotica. Questa configurazione permette ai robot di elaborare le informazioni tattili da più punti contemporaneamente, in modo simile a come le mani umane raccolgono i dati sensoriali.

Figura 5. Il plesso meta-digitale.

Preparare il prossimo capitolo dell'IA

Gli ultimi aggiornamenti di Meta sull'AI, che vanno dai progressi nella computer vision con SAM 2.1 e CoTracker3 ai nuovi sviluppi nei modelli linguistici e nella robotica, dimostrano come l'AI stia costantemente passando dalla teoria a soluzioni pratiche e d'impatto. 

Questi strumenti sono progettati per rendere l'intelligenza artificiale più adattabile e utile in diversi campi, aiutando a segmentare immagini complesse, a comprendere il linguaggio umano e persino a lavorare al nostro fianco negli spazi fisici. 

Dando priorità all'accessibilità e alle applicazioni reali, Meta FAIR ci avvicina a un futuro in cui l'IA potrà affrontare le sfide del mondo reale e migliorare la nostra vita quotidiana in modo significativo. 

Sei curioso di conoscere l'IA? Unisciti alla nostra community per ricevere gli ultimi aggiornamenti e approfondimenti e dai un'occhiata al nostro repository GitHub. Puoi anche scoprire come la computer vision può essere utilizzata in settori come le auto a guida autonoma e l'agricoltura!

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico