Glossario

IA generativa

Scopri come l'IA generativa crea contenuti originali come testi, immagini e audio, trasformando i settori con applicazioni innovative.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'Intelligenza Artificiale Generativa (IA) rappresenta una branca importante all'interno del più ampio campo dell'intelligenza artificiale (IA) e si concentra in particolare sulla creazione di sistemi in grado di generare contenuti completamente nuovi e originali. Questi contenuti possono spaziare in varie modalità, tra cui testo, immagini, audio, codice e persino dati sintetici. A differenza dei modelli di IA discriminativi, che vengono addestrati per classificare o fare previsioni in base ai dati di input (come l'identificazione di oggetti in un'immagine tramite il rilevamento di oggetti), i modelli generativi apprendono i modelli, le strutture e le distribuzioni di probabilità sottostanti all'interno di un set di dati di addestramento. Utilizzano quindi queste conoscenze apprese per produrre nuovi risultati che imitano le caratteristiche dei dati originali. I recenti progressi, in particolare grazie ad architetture come i Generative Pre-trained Transformers (GPT) e i modelli di diffusione, hanno permesso di creare contenuti straordinariamente realistici e intricati, spingendo i confini della creatività delle macchine.

Come funziona l'intelligenza artificiale generativa

L'idea alla base della maggior parte dei modelli generativi è quella di apprendere una rappresentazione della distribuzione dei dati. Una volta appresa questa distribuzione, il modello può campionare da essa per generare nuovi punti di dati statisticamente simili a quelli su cui è stato addestrato. Questo comporta complesse architetture di reti neurali (NN) e sofisticate tecniche di addestramento. Alcune architetture importanti sono:

IA generativa vs. Computer Vision

Pur essendo entrambi sottocampi dell'IA, l'IA generativa e la Computer Vision (CV) hanno obiettivi fondamentalmente diversi. La CV si concentra sulla capacità delle macchine di interpretare e comprendere le informazioni visive del mondo, eseguendo compiti come la classificazione delle immagini, il rilevamento degli oggetti e la segmentazione delle istanze. L'IA generativa, invece, si concentra sulla creazione di nuovi contenuti visivi (o di altro tipo).

Le differenze principali evidenziate durante discussioni come quelle di YOLO Vision 2024 includono:

  1. Dimensione del modello: I modelli generativi, in particolare gli LLM e i modelli di immagini di grandi dimensioni, contengono spesso miliardi o addirittura trilioni di parametri. I modelli CV progettati per l'analisi in tempo reale, come ad esempio Ultralytics YOLO11sono in genere molto più piccoli e più efficienti, con alcune varianti che hanno solo pochi milioni di parametri(confrontando i modelli YOLO ).
  2. Risorse computazionali: L'addestramento e l'esecuzione di modelli generativi di grandi dimensioni richiedono una notevole potenza di calcolo, che spesso coinvolge cluster distribuiti di GPU. Molti modelli CV, compresi quelli di Ultralytics, sono ottimizzati per l'efficienza e possono essere implementati su hardware standard o su dispositivi edge specializzati grazie a framework come ONNX o TensorRT.
  3. Obiettivo: il CV analizza i dati esistenti; l'IA generativa sintetizza i nuovi dati.

Nonostante queste differenze, i campi sono sempre più interconnessi. L'Intelligenza Artificiale Generativa si sta rivelando preziosa per la CV generando dati sintetici di alta qualità. Questi dati sintetici possono aumentare i dataset del mondo reale, aiutando ad addestrare modelli di CV più robusti e accurati, soprattutto negli scenari in cui i dati reali sono scarsi o difficili da ottenere, come nelle simulazioni di guida autonoma o nell'imaging di condizioni mediche rare(AI in sanità).

Applicazioni del mondo reale

L'intelligenza artificiale generativa sta trasformando numerosi settori:

  • Creazione di contenuti: Automatizzare la generazione di articoli, copie di marketing, script(GPT-3), creare immagini e opere d'arte uniche(Midjourney, DALL-E 3), comporre musica e generare contenuti video(OpenAI Sora).
  • Generazione di dati sintetici: Creazione di set di dati realistici per l'addestramento di modelli ML in settori come la robotica, la finanza(modelli di computer vision nella finanza) e l'assistenza sanitaria, migliorando le prestazioni dei modelli e affrontando i problemi di privacy dei dati. Ad esempio, la generazione di immagini mediche sintetiche per addestrare strumenti diagnostici senza utilizzare i dati reali dei pazienti.
  • Scoperta di farmaci e scienza dei materiali: Progettare nuove strutture molecolari e prevederne le proprietà, accelerando la ricerca e lo sviluppo come dimostrato da organizzazioni come Google DeepMind.
  • Personalizzazione: Alimentare esperienze utente altamente personalizzate attraverso la generazione di contenuti dinamici in chatbot, assistenti virtuali e motori di raccomandazione.
  • Sviluppo di software: Assistere gli sviluppatori generando frammenti di codice, suggerendo correzioni di bug e persino creando intere funzioni basate su descrizioni in linguaggio naturale(GitHub Copilot).

Sfide e considerazioni etiche

Il rapido progresso dell'IA generativa comporta anche delle sfide. Garantire l'uso etico di questi potenti strumenti è fondamentale, soprattutto per quanto riguarda i deepfakes, la disinformazione, i diritti di proprietà intellettuale e i pregiudizi intrinseci appresi dai dati di formazione. Per risolvere questi problemi è necessario un attento sviluppo dei modelli, metodi di rilevamento robusti e linee guida chiare delineate nei principi dell'etica dell'IA. Inoltre, le ingenti risorse computazionali necessarie pongono problemi ambientali e di accessibilità. Piattaforme come Ultralytics HUB mirano a semplificare i flussi di lavoro e a ridurre potenzialmente le barriere all'ingresso per alcune attività di IA.

Leggi tutto