Glossario

Latenza di inferenza

Ottimizzare le prestazioni dell'intelligenza artificiale con una bassa latenza di inferenza. Imparate i fattori chiave, le applicazioni reali e le tecniche per migliorare le risposte in tempo reale.

La latenza di inferenza è il tempo necessario a un modello di apprendimento automatico (ML) addestrato per ricevere un input e restituire un output o una previsione corrispondente. Misurata in millisecondi (ms), è una metrica di prestazione critica nel campo dell'intelligenza artificiale (IA), soprattutto per le applicazioni che richiedono un feedback immediato. Una bassa latenza è essenziale per creare sistemi di intelligenza artificiale reattivi ed efficaci, in grado di operare in ambienti dinamici e reali.

Perché la latenza di inferenza è importante

La bassa latenza di inferenza è la chiave per consentire l'inferenza in tempo reale, quando le previsioni devono essere fornite entro un lasso di tempo rigoroso per essere utili. In molti scenari, un ritardo anche di pochi millisecondi può rendere un'applicazione inefficace o non sicura. Ad esempio, un'auto a guida autonoma deve identificare immediatamente pedoni e ostacoli per evitare collisioni, mentre un assistente AI interattivo deve rispondere rapidamente alle domande degli utenti per mantenere un flusso di conversazione naturale. Il raggiungimento di una bassa latenza è una sfida centrale nella distribuzione dei modelli, che ha un impatto diretto sull'esperienza dell'utente e sulla fattibilità dell'applicazione.

Applicazioni del mondo reale

La latenza di inferenza è un fattore decisivo per il successo di molte applicazioni di computer vision. Ecco due esempi:

  1. Guida autonoma: Nel settore automobilistico, il sistema di rilevamento degli oggetti di un veicolo autonomo deve elaborare i dati provenienti da telecamere e sensori con un ritardo minimo. La bassa latenza consente al veicolo di rilevare un pedone che si immette sulla strada e di azionare i freni in tempo, una funzione di sicurezza critica in cui ogni millisecondo è importante.
  2. Diagnostica medica: Nel settore sanitario, i modelli di intelligenza artificiale analizzano le immagini mediche per identificare le malattie. Quando un modello come Ultralytics YOLO11 viene utilizzato per il rilevamento dei tumori nell'imaging medico, la bassa latenza di inferenza consente ai radiologi di ricevere i risultati analitici quasi istantaneamente. Questo rapido ciclo di feedback accelera il processo diagnostico, portando a decisioni terapeutiche più rapide per i pazienti.

Fattori che influenzano la latenza di inferenza

Diversi fattori influenzano la velocità con cui un modello può fare inferenza:

Latenza di inferenza e throughput

Anche se spesso vengono discusse insieme, la latenza di inferenza e il throughput misurano aspetti diversi delle prestazioni.

  • La latenza di inferenza misura la velocità di una singola previsione (ad esempio, la velocità di elaborazione di un'immagine). È la metrica principale per le applicazioni che richiedono risposte immediate.
  • Il throughput misura il numero totale di inferenze completate in un periodo (ad esempio, fotogrammi al secondo). È più rilevante per i sistemi di elaborazione batch, dove la capacità di elaborazione complessiva è la preoccupazione principale.

L'ottimizzazione dell'uno può avere un impatto negativo sull'altro. Ad esempio, l'aumento delle dimensioni del batch migliora in genere il throughput, ma aumenta il tempo necessario per ottenere un risultato per ogni singolo input di quel batch, peggiorando così la latenza. La comprensione di questo compromesso tra latenza e throughput è fondamentale per progettare sistemi di intelligenza artificiale che soddisfino requisiti operativi specifici.

La gestione della latenza di inferenza è un atto di bilanciamento tra l'accuratezza del modello, il costo computazionale e il tempo di risposta. L'obiettivo finale è quello di selezionare un modello e una strategia di distribuzione che soddisfino le esigenze di prestazioni dell'applicazione, un processo che può essere gestito utilizzando piattaforme come Ultralytics HUB.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti