Uno sguardo alle entusiasmanti innovazioni dell'intelligenza artificiale del primo trimestre del 2024. Parleremo di innovazioni come Sora AI di OpenAI, il chip cerebrale di Neuralink e gli ultimi LLM.
La comunità dell'IA sembra fare notizia quasi ogni giorno. I primi mesi del 2024 sono stati entusiasmanti e ricchi di nuove innovazioni nel campo dell'intelligenza artificiale. Dai nuovi potenti modelli linguistici di grandi dimensioni agli impianti cerebrali umani, il 2024 si preannuncia sorprendente.
Stiamo assistendo alla trasformazione dell'intelligenza artificiale delle industrie, alla creazione di informazioni più accessibili e persino ai primi passi verso la fusione delle nostre menti con le macchine. Riavvolgiamo il nastro del primo trimestre del 2024 e diamo un'occhiata più da vicino ai progressi compiuti nell'IA in pochi mesi.
I modelli linguistici di grandi dimensioni (LLM), progettati per comprendere, generare e manipolare il linguaggio umano sulla base di grandi quantità di dati di testo, sono stati al centro della scena nel primo trimestre del 2024. Molte grandi aziende tecnologiche hanno rilasciato i propri modelli LLM, ognuno con funzionalità uniche. L'incredibile successo dei precedenti LLM come GPT-3 ha ispirato questa tendenza. Ecco alcune delle versioni LLM più importanti dell'inizio del 2024.
Anthropic rilasciato Claude 3 il March 14, 2024. Il modello Claude 3 è disponibile in tre versioni: Opus, Sonnet e Haiku, ognuna delle quali serve mercati e scopi diversi. Haiku, il modello più veloce, è ottimizzato per risposte rapide e di base. Sonnet bilancia la velocità con l'intelligenza ed è destinato alle applicazioni aziendali. Opus, la versione più avanzata, offre un'intelligenza e un ragionamento senza pari ed è ideale per compiti complessi e per raggiungere i migliori parametri di riferimento.
Claude 3 vanta molte funzionalità avanzate e miglioramenti:
Databricks DBRX è un LLM aperto e generico rilasciato da Databricks il 27 marzo 2024. DBRX si comporta molto bene in vari benchmark, tra cui la comprensione del linguaggio, la programmazione e la matematica. Supera altri modelli affermati pur essendo circa il 40% più piccolo di modelli simili.
DBRX è stato addestrato utilizzando la previsione del token successivo con un'architettura a granulare mista di esperti (MoE), ed è per questo che possiamo vedere miglioramenti significativi nelle prestazioni di addestramento e inferenza. La sua architettura consente al modello di prevedere la parola successiva in una sequenza in modo più accurato consultando un insieme diversificato di sottomodelli specializzati (gli "esperti"). Questi sottomodelli sono in grado di gestire diversi tipi di informazioni o attività.
Google ha presentato Gemini 1.5, un modello di intelligenza artificiale multimodale ed efficiente dal punto di vista dei calcoli, in grado di analizzare dati testuali, video e audio, il 15 febbraio 2024. L'ultimo modello è più avanzato in termini di prestazioni, efficienza e capacità. Una delle caratteristiche principali di Gemini 1.5 è il suo passo avanti nella comprensione di lunghi contesti. Il modello è in grado di gestire fino a 1 milione di token in modo costante. Le capacità di Gemini 1.5 sono anche merito di una nuova architettura basata sul MoE.
Ecco alcune delle caratteristiche più interessanti di Gemini 1.5 :
Il primo trimestre del 2024 ha svelato modelli di intelligenza artificiale generativa in grado di creare immagini così reali da aver scatenato dibattiti sul futuro dei social media e sui progressi dell'intelligenza artificiale. Immergiamoci nei modelli che animano la conversazione.
OpenAI, il creatore di ChatGPT, ha annunciato il 15 febbraio 2024 un modello di deep learning text-to-video all'avanguardia chiamato Sora. Sora è un generatore text-to-video in grado di generare video di un minuto con un'elevata qualità visiva basata su prompt testuali dell'utente.
Ad esempio, dai un'occhiata al seguente prompt.
"Un mondo di carta splendidamente reso di una barriera corallina, pieno di pesci colorati e creature marine."
Ed ecco un fotogramma del video di output.
L'architettura di Sora lo rende possibile combinando modelli di diffusione per la generazione di texture e modelli di trasformatori per la coerenza strutturale. Finora, l'accesso a Sora è stato concesso ai red teamer e a un gruppo selezionato di artisti visivi, designer e registi per comprendere i rischi e ottenere feedback.
Stability AI ha annunciato l'arrivo di Stable Diffusion 3, un modello di generazione text-to-image, il 22 febbraio 2024. Il modello combina l'architettura del trasformatore di diffusione e l'adattamento del flusso. Devono ancora rilasciare un documento tecnico, ma ci sono alcune caratteristiche chiave a cui prestare attenzione.
L'ultimo modello di Stable Diffusion offre prestazioni, qualità dell'immagine e precisione migliorate nella creazione di immagini con più soggetti. Stable Diffusion 3 offrirà anche una varietà di modelli che vanno da 800 milioni a 8 miliardi di parametri. Consentirà agli utenti di scegliere in base alle loro esigenze specifiche di scalabilità e dettaglio.
Il 23 gennaio 2024, Google ha lanciato Lumiere, un modello di diffusione da testo a video. Lumiere utilizza un'architettura chiamata Space-Time-U-Net, in breve STUNet. Questa architettura aiuta Lumiere a capire dove si trovano le cose e come si muovono in un video. In questo modo è in grado di generare video fluidi e realistici.
Con la capacità di generare 80 fotogrammi per video, Lumiere sta spingendo i confini e stabilendo nuovi standard per la qualità video nello spazio dell'intelligenza artificiale. Ecco alcune delle caratteristiche di Lumiere:
L'inizio del 2024 ha portato anche molte innovazioni dell'intelligenza artificiale che sembrano uscite da un film di fantascienza. Cose che prima avremmo detto essere impossibili ora sono in fase di lavorazione. Il futuro non sembra così lontano con le seguenti scoperte.
Neuralink di Elon Musk ha impiantato con successo il suo chip cerebrale wireless in un essere umano il 29 gennaio 2024. Questo è un enorme passo avanti verso la connessione del cervello umano ai computer. Elon Musk ha condiviso che il primo prodotto di Neuralink, chiamato "Telepathy", è in cantiere.
L'obiettivo è quello di consentire agli utenti, in particolare a coloro che hanno perso la funzionalità degli arti, di controllare i dispositivi senza sforzo attraverso i loro pensieri. Le potenziali applicazioni vanno oltre la convenienza. Elon Musk immagina un futuro in cui le persone con paralisi possono comunicare facilmente.
Il 18 gennaio 2024, Walt Disney Imagineering ha presentato l'HoloTile Floor. È stato soprannominato il primo tapis roulant omnidirezionale multi-persona al mondo.
Può muoversi sotto qualsiasi persona o oggetto come la telecinesi per un'esperienza immersiva di realtà virtuale e aumentata. Puoi camminare in qualsiasi direzione ed evitare collisioni mentre sei su di esso. L'HoloTile Floor della Disney può anche essere piantato sui palcoscenici teatrali per ballare e muoversi in modi creativi.
Il 2 febbraio 2024, le tanto attese cuffie Vision Pro di Apple sono arrivate sul mercato. Ha una serie di funzionalità e applicazioni progettate per ridefinire l'esperienza di realtà virtuale e aumentata. Le cuffie Vision Pro si rivolgono a un pubblico eterogeneo combinando intrattenimento, produttività e spatial computing. Apple ha annunciato con orgoglio che oltre 600 app, che vanno dagli strumenti di produttività ai servizi di gioco e intrattenimento, sono state ottimizzate per il Vision Pro al momento del suo lancio.
Il 12 marzo 2024, Cognition ha rilasciato un assistente di ingegneria del software chiamato Devin. Devin è il primo tentativo al mondo di realizzare un ingegnere del software autonomo basato sull'intelligenza artificiale. A differenza dei tradizionali assistenti di codifica che offrono suggerimenti o completano attività specifiche, Devin è progettato per gestire interi progetti di sviluppo software dall'idea iniziale al completamento.
Può apprendere nuove tecnologie, creare e distribuire app complete, trovare e correggere bug, addestrare i propri modelli, contribuire a basi di codice open source e di produzione e persino assumere veri e propri lavori di sviluppo da siti come Upwork.
Devin è stato valutato su SWE-bench, un benchmark impegnativo che chiede agli agenti di risolvere i problemi di GitHub del mondo reale trovati in progetti open source come Django e scikit-learn. Ha risolto correttamente il 13,86% dei problemi end-to-end, rispetto al precedente stato dell'arte dell'1,96%.
Sono successe così tante cose che non è possibile coprire tutto in questo articolo. Ma ecco alcune menzioni d'onore.
L'inizio del 2024 ha visto progressi rivoluzionari nell'IA e molte importanti pietre miliari tecnologiche. Ma questo è solo l'inizio di ciò che l'IA può fare. Se vuoi saperne di più sugli ultimi sviluppi dell'IA, Ultralytics ti copre.
Dai un'occhiata al nostro repository GitHub per vedere i nostri ultimi contributi in visione artificiale e intelligenza artificiale. Puoi anche dare un'occhiata alle nostre pagine sulle soluzioni per vedere come l'IA viene utilizzata in settori come la produzione e l'assistenza sanitaria.
Inizia il tuo viaggio nel futuro dell'apprendimento automatico