Controllo verde
Link copiato negli appunti

Il 2024 inizia con un'ondata di IA generativa

Uno sguardo alle entusiasmanti innovazioni dell'intelligenza artificiale del primo trimestre del 2024. Parleremo di innovazioni come Sora AI di OpenAI, il chip cerebrale di Neuralink e gli ultimi LLM.

La comunità dell'IA sembra fare notizia quasi ogni giorno. I primi mesi del 2024 sono stati entusiasmanti e ricchi di nuove innovazioni nel campo dell'intelligenza artificiale. Dai nuovi potenti modelli linguistici di grandi dimensioni agli impianti cerebrali umani, il 2024 si preannuncia sorprendente.

Stiamo assistendo alla trasformazione dell'intelligenza artificiale delle industrie, alla creazione di informazioni più accessibili e persino ai primi passi verso la fusione delle nostre menti con le macchine. Riavvolgiamo il nastro del primo trimestre del 2024 e diamo un'occhiata più da vicino ai progressi compiuti nell'IA in pochi mesi.

Gli LLM sono di tendenza

I modelli linguistici di grandi dimensioni (LLM), progettati per comprendere, generare e manipolare il linguaggio umano sulla base di grandi quantità di dati di testo, sono stati al centro della scena nel primo trimestre del 2024. Molte grandi aziende tecnologiche hanno rilasciato i propri modelli LLM, ognuno con funzionalità uniche. L'incredibile successo dei precedenti LLM come GPT-3 ha ispirato questa tendenza. Ecco alcune delle versioni LLM più importanti dell'inizio del 2024.

Anthropic's Claude 3

Anthropic rilasciato Claude 3 il March 14, 2024. Il modello Claude 3 è disponibile in tre versioni: Opus, Sonnet e Haiku, ognuna delle quali serve mercati e scopi diversi. Haiku, il modello più veloce, è ottimizzato per risposte rapide e di base. Sonnet bilancia la velocità con l'intelligenza ed è destinato alle applicazioni aziendali. Opus, la versione più avanzata, offre un'intelligenza e un ragionamento senza pari ed è ideale per compiti complessi e per raggiungere i migliori parametri di riferimento.

Claude 3 vanta molte funzionalità avanzate e miglioramenti:

  • Conversazioni multilingue migliorate: abilità migliorate in lingue come spagnolo, giapponese e francese.
  • Funzionalità di visione avanzate: in grado di gestire vari formati visivi
  • Rifiuti ridotti al minimo: mostra una maggiore comprensione con un minor numero di rifiuti non necessari, indicando una migliore comprensione del contesto
  • Finestra di contesto estesa: offre una finestra di contesto di 200K, ma è in grado di elaborare input di oltre 1 milione di token in base alle esigenze dei clienti.
Figura 1. Claude 3 è più consapevole del contesto rispetto alle versioni precedenti.

DBRX di Databricks

Databricks DBRX è un LLM aperto e generico rilasciato da Databricks il 27 marzo 2024. DBRX si comporta molto bene in vari benchmark, tra cui la comprensione del linguaggio, la programmazione e la matematica. Supera altri modelli affermati pur essendo circa il 40% più piccolo di modelli simili.

Figura 2. Confronto tra DBRX e altri modelli.

DBRX è stato addestrato utilizzando la previsione del token successivo con un'architettura a granulare mista di esperti (MoE), ed è per questo che possiamo vedere miglioramenti significativi nelle prestazioni di addestramento e inferenza. La sua architettura consente al modello di prevedere la parola successiva in una sequenza in modo più accurato consultando un insieme diversificato di sottomodelli specializzati (gli "esperti"). Questi sottomodelli sono in grado di gestire diversi tipi di informazioni o attività.

GoogleGemini 1.5

Google ha presentato Gemini 1.5, un modello di intelligenza artificiale multimodale ed efficiente dal punto di vista dei calcoli, in grado di analizzare dati testuali, video e audio, il 15 febbraio 2024. L'ultimo modello è più avanzato in termini di prestazioni, efficienza e capacità. Una delle caratteristiche principali di Gemini 1.5 è il suo passo avanti nella comprensione di lunghi contesti. Il modello è in grado di gestire fino a 1 milione di token in modo costante. Le capacità di Gemini 1.5 sono anche merito di una nuova architettura basata sul MoE.

Figura 3. Confronto delle lunghezze del contesto degli LLM più diffusi

Ecco alcune delle caratteristiche più interessanti di Gemini 1.5 :

  • Gestione dei dati migliorata: consente il caricamento diretto di PDF di grandi dimensioni, repository di codice o video lunghi come prompt. Il modello è in grado di ragionare attraverso le modalità e il testo di output.
  • Caricamenti di file multipli e query: gli sviluppatori possono ora caricare più file e porre domande.
  • Può essere utilizzato per diverse attività: è ottimizzato per scalare tra diverse attività e mostra miglioramenti in aree come matematica, scienze, ragionamento, multilinguismo, comprensione video e codice

Immagini straordinarie dall'intelligenza artificiale

Il primo trimestre del 2024 ha svelato modelli di intelligenza artificiale generativa in grado di creare immagini così reali da aver scatenato dibattiti sul futuro dei social media e sui progressi dell'intelligenza artificiale. Immergiamoci nei modelli che animano la conversazione.

Sora di OpenAI 

OpenAI, il creatore di ChatGPT, ha annunciato il 15 febbraio 2024 un modello di deep learning text-to-video all'avanguardia chiamato Sora. Sora è un generatore text-to-video in grado di generare video di un minuto con un'elevata qualità visiva basata su prompt testuali dell'utente. 

Ad esempio, dai un'occhiata al seguente prompt. 

"Un mondo di carta splendidamente reso di una barriera corallina, pieno di pesci colorati e creature marine." 

Ed ecco un fotogramma del video di output. 

Figura 4. Un fotogramma di un video generato da Sora.

L'architettura di Sora lo rende possibile combinando modelli di diffusione per la generazione di texture e modelli di trasformatori per la coerenza strutturale. Finora, l'accesso a Sora è stato concesso ai red teamer e a un gruppo selezionato di artisti visivi, designer e registi per comprendere i rischi e ottenere feedback. 

Stability AIDiffusione stabile 3 

Stability AI ha annunciato l'arrivo di Stable Diffusion 3, un modello di generazione text-to-image, il 22 febbraio 2024. Il modello combina l'architettura del trasformatore di diffusione e l'adattamento del flusso. Devono ancora rilasciare un documento tecnico, ma ci sono alcune caratteristiche chiave a cui prestare attenzione.

Figura 5. L'immagine di output si basa sul prompt: "Epica opera d'arte anime di un mago in cima a una montagna di notte che lancia un incantesimo cosmico nel cielo scuro che dice "Stable Diffusion 3" fatto di energia colorata"

L'ultimo modello di Stable Diffusion offre prestazioni, qualità dell'immagine e precisione migliorate nella creazione di immagini con più soggetti. Stable Diffusion 3 offrirà anche una varietà di modelli che vanno da 800 milioni a 8 miliardi di parametri. Consentirà agli utenti di scegliere in base alle loro esigenze specifiche di scalabilità e dettaglio.

GoogleLumiere 

Il 23 gennaio 2024, Google ha lanciato Lumiere, un modello di diffusione da testo a video. Lumiere utilizza un'architettura chiamata Space-Time-U-Net, in breve STUNet. Questa architettura aiuta Lumiere a capire dove si trovano le cose e come si muovono in un video. In questo modo è in grado di generare video fluidi e realistici.

Figura 6. Un fotogramma di un video generato in base al prompt: "Panda suona l'ukulele a casa".

Con la capacità di generare 80 fotogrammi per video, Lumiere sta spingendo i confini e stabilendo nuovi standard per la qualità video nello spazio dell'intelligenza artificiale. Ecco alcune delle caratteristiche di Lumiere:

  • Da immagine a video: a partire da un'immagine e da un prompt, Lumiere può animare le immagini in video.
  • Generazione stilizzata: Lumiere può creare video in stili specifici utilizzando un'unica immagine di riferimento.
  • Cinemagrafie: Lumiere può animare regioni specifiche all'interno di un'immagine per creare scene dinamiche, come un particolare oggetto che si muove mentre il resto della scena rimane statico.
  • Video Inpainting: può modificare parti di un video, ad esempio cambiando l'abbigliamento delle persone al suo interno o alterando i dettagli dello sfondo.

Il futuro sembra essere qui

L'inizio del 2024 ha portato anche molte innovazioni dell'intelligenza artificiale che sembrano uscite da un film di fantascienza. Cose che prima avremmo detto essere impossibili ora sono in fase di lavorazione. Il futuro non sembra così lontano con le seguenti scoperte.

Neuralink di Elon Musk

Neuralink di Elon Musk ha impiantato con successo il suo chip cerebrale wireless in un essere umano il 29 gennaio 2024. Questo è un enorme passo avanti verso la connessione del cervello umano ai computer. Elon Musk ha condiviso che il primo prodotto di Neuralink, chiamato "Telepathy", è in cantiere. 

Figura 7. L'impianto Neuralink

L'obiettivo è quello di consentire agli utenti, in particolare a coloro che hanno perso la funzionalità degli arti, di controllare i dispositivi senza sforzo attraverso i loro pensieri. Le potenziali applicazioni vanno oltre la convenienza. Elon Musk immagina un futuro in cui le persone con paralisi possono comunicare facilmente.

Pavimento HoloTile della Disney 

Il 18 gennaio 2024, Walt Disney Imagineering ha presentato l'HoloTile Floor. È stato soprannominato il primo tapis roulant omnidirezionale multi-persona al mondo. 

Figura 8. L'immaginatore Disney Lanny Smoot posa sulla sua ultima innovazione, il pavimento HoloTile.

Può muoversi sotto qualsiasi persona o oggetto come la telecinesi per un'esperienza immersiva di realtà virtuale e aumentata. Puoi camminare in qualsiasi direzione ed evitare collisioni mentre sei su di esso. L'HoloTile Floor della Disney può anche essere piantato sui palcoscenici teatrali per ballare e muoversi in modi creativi.

Vision Pro di Apple

Il 2 febbraio 2024, le tanto attese cuffie Vision Pro di Apple sono arrivate sul mercato. Ha una serie di funzionalità e applicazioni progettate per ridefinire l'esperienza di realtà virtuale e aumentata. Le cuffie Vision Pro si rivolgono a un pubblico eterogeneo combinando intrattenimento, produttività e spatial computing. Apple ha annunciato con orgoglio che oltre 600 app, che vanno dagli strumenti di produttività ai servizi di gioco e intrattenimento, sono state ottimizzate per il Vision Pro al momento del suo lancio.

Devin della cognizione

Il 12 marzo 2024, Cognition ha rilasciato un assistente di ingegneria del software chiamato Devin. Devin è il primo tentativo al mondo di realizzare un ingegnere del software autonomo basato sull'intelligenza artificiale. A differenza dei tradizionali assistenti di codifica che offrono suggerimenti o completano attività specifiche, Devin è progettato per gestire interi progetti di sviluppo software dall'idea iniziale al completamento. 

Può apprendere nuove tecnologie, creare e distribuire app complete, trovare e correggere bug, addestrare i propri modelli, contribuire a basi di codice open source e di produzione e persino assumere veri e propri lavori di sviluppo da siti come Upwork. 

Figura 9. Confronto tra Devin e altri modelli.

Devin è stato valutato su SWE-bench, un benchmark impegnativo che chiede agli agenti di risolvere i problemi di GitHub del mondo reale trovati in progetti open source come Django e scikit-learn. Ha risolto correttamente il 13,86% dei problemi end-to-end, rispetto al precedente stato dell'arte dell'1,96%.

Menzioni d'onore

Sono successe così tante cose che non è possibile coprire tutto in questo articolo. Ma ecco alcune menzioni d'onore. 

  • NVIDIALATTE3D, annunciato il 21 marzo 2024, è un modello AI text-to-3D che crea istantaneamente rappresentazioni 3D a partire da messaggi di testo.
  • Il nuovo generatore text-to-video di Midjourney, anticipato dal CEO David Holz, ha iniziato la formazione a gennaio e dovrebbe essere lanciato a breve.
  • Portando avanti la rivoluzione dei PC AI, Lenovo ha rilasciato il ThinkBook 13x con tecnologia E Ink Prism e laptop AI ad alte prestazioni l'8 gennaio 2024.

Rimani aggiornato sulle tendenze dell'IA con noi!

L'inizio del 2024 ha visto progressi rivoluzionari nell'IA e molte importanti pietre miliari tecnologiche. Ma questo è solo l'inizio di ciò che l'IA può fare. Se vuoi saperne di più sugli ultimi sviluppi dell'IA, Ultralytics ti copre.

Dai un'occhiata al nostro repository GitHub per vedere i nostri ultimi contributi in visione artificiale e intelligenza artificiale. Puoi anche dare un'occhiata alle nostre pagine sulle soluzioni per vedere come l'IA viene utilizzata in settori come la produzione e l'assistenza sanitaria

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico