Ottimizzare le prestazioni dell'intelligenza artificiale con una bassa latenza di inferenza. Imparate i fattori chiave, le applicazioni reali e le tecniche per migliorare le risposte in tempo reale.
La latenza di inferenza è il tempo necessario a un modello di apprendimento automatico (ML) addestrato per ricevere un input e restituire un output o una previsione corrispondente. Misurata in millisecondi (ms), è una metrica di prestazione critica nel campo dell'intelligenza artificiale (IA), soprattutto per le applicazioni che richiedono un feedback immediato. Una bassa latenza è essenziale per creare sistemi di intelligenza artificiale reattivi ed efficaci, in grado di operare in ambienti dinamici e reali.
La bassa latenza di inferenza è la chiave per consentire l'inferenza in tempo reale, quando le previsioni devono essere fornite entro un lasso di tempo rigoroso per essere utili. In molti scenari, un ritardo anche di pochi millisecondi può rendere un'applicazione inefficace o non sicura. Ad esempio, un'auto a guida autonoma deve identificare immediatamente pedoni e ostacoli per evitare collisioni, mentre un assistente AI interattivo deve rispondere rapidamente alle domande degli utenti per mantenere un flusso di conversazione naturale. Il raggiungimento di una bassa latenza è una sfida centrale nella distribuzione dei modelli, che ha un impatto diretto sull'esperienza dell'utente e sulla fattibilità dell'applicazione.
La latenza di inferenza è un fattore decisivo per il successo di molte applicazioni di computer vision. Ecco due esempi:
Diversi fattori influenzano la velocità con cui un modello può fare inferenza:
Anche se spesso vengono discusse insieme, la latenza di inferenza e il throughput misurano aspetti diversi delle prestazioni.
L'ottimizzazione dell'uno può avere un impatto negativo sull'altro. Ad esempio, l'aumento delle dimensioni del batch migliora in genere il throughput, ma aumenta il tempo necessario per ottenere un risultato per ogni singolo input di quel batch, peggiorando così la latenza. La comprensione di questo compromesso tra latenza e throughput è fondamentale per progettare sistemi di intelligenza artificiale che soddisfino requisiti operativi specifici.
La gestione della latenza di inferenza è un atto di bilanciamento tra l'accuratezza del modello, il costo computazionale e il tempo di risposta. L'obiettivo finale è quello di selezionare un modello e una strategia di distribuzione che soddisfino le esigenze di prestazioni dell'applicazione, un processo che può essere gestito utilizzando piattaforme come Ultralytics HUB.