Glossario

Modello multimodale

Scopri come i modelli di intelligenza artificiale multimodale integrano testo, immagini e altro ancora per creare sistemi robusti e versatili per applicazioni reali.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I modelli multimodali rappresentano un significativo progresso nell'intelligenza artificiale (AI) grazie all'elaborazione e all'integrazione di informazioni provenienti da diversi tipi di fonti di dati, note come modalità. A differenza dei modelli tradizionali che possono concentrarsi solo su immagini o testo, i sistemi multimodali combinano input come testo, immagini, audio, video e dati dei sensori per ottenere una comprensione più olistica e simile a quella umana di scenari complessi. Questa integrazione permette di catturare relazioni e contesti complessi che i modelli monomodali potrebbero non cogliere, dando vita ad applicazioni di intelligenza artificiale più robuste e versatili, approfondite in risorse come il blogUltralytics .

Definizione

Un modello multimodale è un sistema di intelligenza artificiale progettato e addestrato per elaborare, comprendere e mettere in relazione simultaneamente informazioni provenienti da due o più modalità di dati distinte. Le modalità più comuni includono dati visivi (immagini, video), uditivi (parlato, suoni), testuali(elaborazione del linguaggio naturale - NLP) e altri dati di sensori (come LiDAR o letture della temperatura). L'idea di base è la fusione delle informazioni: combinare i punti di forza di diversi tipi di dati per ottenere una comprensione più approfondita. Ad esempio, la comprensione completa di un video implica l'elaborazione dei fotogrammi visivi, del dialogo parlato (audio) e potenzialmente delle didascalie o dei sottotitoli. Apprendendo le correlazioni e le dipendenze tra queste modalità durante il processo di addestramento del machine learning (ML), spesso utilizzando tecniche di deep learning (DL), questi modelli sviluppano una comprensione più ricca e ricca di sfumature rispetto a quella possibile analizzando ciascuna modalità in modo isolato.

Rilevanza e applicazioni

L'importanza dei modelli multimodali sta crescendo rapidamente perché le informazioni del mondo reale sono intrinsecamente sfaccettate. Gli esseri umani percepiscono naturalmente il mondo utilizzando più sensi; dotare l'intelligenza artificiale di capacità simili permette di realizzare applicazioni più sofisticate e consapevoli del contesto. Questi modelli sono fondamentali nei casi in cui la comprensione dipende dall'integrazione di diversi flussi di dati, con conseguente miglioramento della precisione in compiti complessi.

Ecco alcuni esempi concreti della loro applicazione:

Concetti chiave e distinzioni

La comprensione dei modelli multimodali implica la conoscenza di concetti correlati:

  • Apprendimento multimodale: È il sottocampo del ML che si concentra sullo sviluppo degli algoritmi e delle tecniche utilizzate per addestrare i modelli multimodali. Affronta sfide come l'allineamento dei dati e le strategie di fusione, spesso discusse in articoli accademici.
  • Modelli di fondazione: Molti modelli di base moderni, come il GPT-4, sono intrinsecamente multimodali, in grado di elaborare sia testo che immagini. Questi modelli di grandi dimensioni servono come base che può essere messa a punto per compiti specifici.
  • Modelli linguistici di grandi dimensioni (LLM): Pur essendo correlati, gli LLM si concentrano tradizionalmente sull'elaborazione del testo. I modelli multimodali sono più ampi, progettati esplicitamente per gestire e integrare informazioni provenienti da diversi tipi di dati oltre al linguaggio. Alcuni LLM avanzati, tuttavia, hanno sviluppato capacità multimodali.
  • Modelli di visione specializzati: I modelli multimodali differiscono dai modelli di visione computerizzata (CV) specializzati, come ad esempio Ultralytics YOLO. Mentre un modello multimodale come GPT-4 può descrivere un'immagine ("C'è un gatto seduto su un tappeto"), un modello YOLO eccelle nel rilevamento di oggetti o nella segmentazione di istanze, localizzando con precisione il gatto con un riquadro di delimitazione o una maschera di pixel. Questi modelli possono essere complementari: YOLO identifica la posizione degli oggetti, mentre un modello multimodale può interpretare la scena o rispondere a domande su di essa. Guarda i confronti tra i diversi modelli YOLO .
  • Architettura del trasformatore: L'architettura a trasformatori, introdotta in "L'attenzione è tutto ciò che serve", è fondamentale per molti modelli multimodali di successo, in quanto consente un'efficace elaborazione e integrazione di diverse sequenze di dati attraverso i meccanismi di attenzione.

Lo sviluppo e la distribuzione di questi modelli spesso coinvolge framework come PyTorch e TensorFlowe piattaforme come Ultralytics HUB possono aiutare a gestire i dataset e i flussi di lavoro per l'addestramento dei modelli, anche se attualmente HUB si concentra maggiormente su attività specifiche per la visione. La capacità di collegare diversi tipi di dati rende i modelli multimodali un passo avanti verso un'intelligenza artificiale più completa, contribuendo potenzialmente alla futura Intelligenza Generale Artificiale (AGI).

Leggi tutto