Glossario

Latenza di inferenza

Scopri perché la latenza di inferenza è importante nell'IA, i suoi fattori chiave e come ottimizzarla per ottenere prestazioni in tempo reale in diverse applicazioni.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La latenza di inferenza si riferisce al tempo necessario a un modello di apprendimento automatico o di intelligenza artificiale per elaborare un input e fornire un output durante l'inferenza. Questo parametro è fondamentale nelle applicazioni in cui sono essenziali risposte in tempo reale o quasi, come i veicoli autonomi, la diagnostica sanitaria o i sistemi di cassa al dettaglio. La latenza di inferenza è spesso misurata in millisecondi (ms) e ha un impatto diretto sull'esperienza dell'utente e sull'efficienza del sistema delle applicazioni basate sull'intelligenza artificiale.

Perché la latenza di inferenza è importante

La latenza dell'inferenza è un parametro di performance fondamentale per valutare la velocità e l'usabilità di un modello di intelligenza artificiale. Una latenza più bassa garantisce risposte più rapide, il che è fondamentale per le applicazioni che richiedono un processo decisionale in tempo reale. Ad esempio, nei veicoli autonomi, qualsiasi ritardo nel riconoscimento dei pedoni o dei segnali stradali potrebbe avere serie implicazioni per la sicurezza. Allo stesso modo, nel settore sanitario, un'analisi rapida delle immagini mediche può salvare la vita in situazioni di emergenza.

Ottimizzare la latenza dell'inferenza non solo migliora la soddisfazione dell'utente ma riduce anche i costi di calcolo, soprattutto in ambienti con risorse limitate come i dispositivi edge o le piattaforme mobili.

Fattori che influenzano la latenza dell'inferenza

Diversi fattori contribuiscono alla latenza dell'inferenza, tra cui:

  • Complessità del modello: I modelli più grandi e complessi, come quelli con numerosi livelli o parametri, richiedono in genere più tempo per elaborare gli input.
  • Prestazioni dell'hardware: La scelta dell'hardware, come GPU, TPU o CPU, influisce in modo significativo sulla latenza. Ad esempio, le GPU sono ottimizzate per l'elaborazione in parallelo e spesso riducono la latenza nelle attività di inferenza.
  • Dimensione del batch: L'elaborazione di più input contemporaneamente (batching) può ridurre o aumentare la latenza a seconda dell'applicazione e delle capacità hardware. Scopri di più sull'ottimizzazione delle dimensioni dei batch.
  • Tecniche di ottimizzazione: Tecniche come la quantizzazione del modello e il pruning possono ridurre significativamente la latenza semplificando il modello o riducendone le dimensioni.
  • Struttura e strumenti: Il framework software utilizzato per l'inferenza, come ad esempio PyTorch o TensorRT, può influenzare la latenza attraverso l'ottimizzazione e l'accelerazione hardware.

Ottimizzare la latenza dell'inferenza

Per ridurre la latenza dell'inferenza, gli sviluppatori utilizzano spesso diverse strategie:

  • Ottimizzazione del modello: Tecniche come il pruning, la quantizzazione o la distillazione della conoscenza possono snellire i modelli, rendendoli più veloci da eseguire. Scopri di più sull'ottimizzazione dei modelli.
  • Accelerazione hardware: L'utilizzo di acceleratori dedicati come le GPU di NVIDIA con TensorRT o il toolkit di IntelOpenVINO può migliorare notevolmente i tempi di inferenza.
  • Distribuzione efficiente: L'utilizzo di formati di distribuzione ottimizzati come ONNX o TensorFlow Lite garantisce che i modelli siano più adatti a piattaforme specifiche.
  • Edge AI: l'esecuzione dell'inferenza su dispositivi edge, come Raspberry Pi con Coral Edge TPU, riduce al minimo la latenza introdotta dall'elaborazione basata sul cloud.

Applicazioni del mondo reale

1. Veicoli autonomi

La latenza dell'inferenza gioca un ruolo fondamentale nelle auto a guida autonoma. Ad esempio, i modelli utilizzati per il rilevamento degli oggetti e il processo decisionale in tempo reale devono elaborare rapidamente i feed delle telecamere per riconoscere ostacoli, pedoni e segnali stradali. Ultralytics YOLO modelli, utilizzati nell'AI per la guida autonoma, consentono un rilevamento rapido mantenendo un'elevata precisione.

2. Automazione delle casse del commercio al dettaglio

Negli ambienti di vendita al dettaglio, i sistemi di intelligenza artificiale utilizzano il rilevamento degli oggetti per riconoscere i prodotti alla cassa, eliminando la necessità dei codici a barre. L'inferenza a bassa latenza garantisce un'esperienza di acquisto senza interruzioni. Scopri come l 'intelligenza artificiale nel retail migliora l'efficienza operativa grazie a un rilevamento degli oggetti rapido e preciso.

3. Diagnostica sanitaria

Le applicazioni di imaging medico si basano su una bassa latenza di inferenza per una diagnosi rapida. Ad esempio, i modelli di intelligenza artificiale che analizzano le scansioni CT per individuare eventuali anomalie devono fornire risultati in tempo reale per aiutare i medici a prendere decisioni rapide. Per saperne di più sull'IA nel settore sanitario.

Concetti correlati

Mentre la latenza di inferenza si concentra sul tempo di risposta durante l'inferenza, si distingue da termini correlati come:

  • Inferenza in tempo reale: Si riferisce a compiti di inferenza che richiedono risposte istantanee, spesso con vincoli di latenza stringenti. Scopri di più sull'inferenza in tempo reale.
  • Accuratezza: A differenza della latenza, l'accuratezza valuta la correttezza delle previsioni del modello. Esplora l'accuratezza per capire il suo ruolo nelle prestazioni dei modelli di intelligenza artificiale.
  • Throughput: Misura il numero di inferenze che un modello può eseguire al secondo e spesso viene ottimizzato insieme alla latenza. Per le applicazioni che danno priorità alla velocità, scopri come bilanciare latenza e throughput.

Conclusione

La latenza dell'inferenza è un parametro critico nell'implementazione dei modelli di intelligenza artificiale, in particolare per le applicazioni che richiedono prestazioni in tempo reale o a bassa latenza. Comprendendo i fattori che influenzano la latenza e utilizzando tecniche di ottimizzazione, gli sviluppatori possono assicurarsi che i loro modelli forniscano risultati veloci e affidabili. L'HUB Ultralytics fornisce strumenti per addestrare, distribuire e monitorare i modelli in modo efficiente, facilitando il raggiungimento di prestazioni ottimali in diversi casi d'uso. Esplora l'HUB Ultralytics per ottimizzare i tuoi flussi di lavoro AI.

Leggi tutto