Scopri come l'inferenza in tempo reale con Ultralytics YOLO permette di fare previsioni istantanee per applicazioni di AI come la guida autonoma e i sistemi di sicurezza.
L'inferenza in tempo reale si riferisce al processo in cui un modello di apprendimento automatico (ML) addestrato fa previsioni o prende decisioni immediatamente quando arrivano nuovi dati. A differenza dell'inferenza batch, che elabora i dati in gruppi raccolti nel tempo, l'inferenza in tempo reale privilegia la bassa latenza e le risposte immediate. Questa capacità è essenziale per le applicazioni che richiedono un feedback immediato o un'azione basata su flussi di dati in tempo reale, consentendo ai sistemi di reagire dinamicamente a condizioni mutevoli, in linea con i principi dell'informatica in tempo reale.
In pratica, l'inferenza in tempo reale implica l'impiego di un modello di ML, come ad esempio un modello di Ultralytics YOLO per la computer vision (CV), in modo che possa analizzare i singoli input di dati (come i fotogrammi di un video o le letture di un sensore) e produrre output con un ritardo minimo. Il parametro chiave delle prestazioni è la latenza di inferenza, ovvero il tempo che intercorre tra la ricezione di un input e la generazione di una previsione. Il raggiungimento di una bassa latenza spesso comporta diverse strategie, tra cui l'ottimizzazione del modello stesso e l'utilizzo di hardware e software specializzati.
La differenza principale sta nel modo in cui i dati vengono elaborati e nei requisiti di latenza associati:
L'inferenza in tempo reale è alla base di molte moderne applicazioni di Intelligenza Artificiale (AI) in cui è fondamentale prendere decisioni istantanee:
Per rendere i modelli sufficientemente veloci per le applicazioni in tempo reale, spesso è necessaria un'ottimizzazione significativa:
Modelli come Ultralytics YOLO11 sono stati progettati all'insegna dell'efficienza e dell'accuratezza, il che li rende adatti a compiti di rilevamento di oggetti in tempo reale. Piattaforme come Ultralytics HUB forniscono strumenti per l'addestramento, l'ottimizzazione (ad esempio, l'esportazione a ONNX o TensorRT ) e distribuire i modelli, facilitando l'implementazione di soluzioni di inferenza in tempo reale con diverse opzioni di distribuzione.