Inferenza in tempo reale

Scoprite come l'inferenza in tempo reale con Ultralytics YOLO consente previsioni istantanee per applicazioni AI come la guida autonoma e i sistemi di sicurezza.

L'inferenza in tempo reale è il processo di utilizzo di un modello di apprendimento automatico (ML) addestrato per fare previsioni su nuovi dati in tempo reale con un ritardo minimo. Nel contesto dell'IA e della computer vision (CV), ciò significa che il sistema è in grado di elaborare le informazioni, come un flusso video, e di generare un risultato quasi istantaneo. L'obiettivo è rendere la latenza dell'inferenza abbastanza bassa da rendere i risultati immediatamente utili per il processo decisionale. Questa capacità è fondamentale per le applicazioni in cui i tempi sono critici, trasformando il modo in cui i settori, dall'automotive alla sanità, sfruttano l'IA.

Inferenza in tempo reale contro inferenza in batch Inferenza batch

È importante distinguere l'inferenza in tempo reale dall'inferenza in batch. La differenza principale sta nel modo in cui vengono elaborati i dati.

Inferenza in tempo reale: Elabora i dati man mano che vengono generati o ricevuti, in genere un ingresso o un piccolo flusso alla volta. La priorità è ridurre al minimo il ritardo(latenza) tra input e output. Questo è essenziale per i sistemi interattivi e sensibili al tempo.
Inferenza batch: Consiste nel raccogliere dati per un certo periodo e nell'elaborarli tutti in una volta in un grande lotto. Questo approccio privilegia la massimizzazione del throughput (la quantità di dati elaborati nel tempo) piuttosto che la minimizzazione della latenza. L'elaborazione in batch è adatta a compiti non urgenti, come la generazione di rapporti giornalieri o l'analisi periodica di grandi insiemi di dati.

Sebbene entrambi utilizzino un modello addestrato per fare previsioni, i loro casi d'uso sono fondamentalmente diversi in base all'urgenza dei risultati.

Applicazioni nel mondo reale

La capacità di prendere decisioni immediate consente un'ampia gamma di potenti applicazioni in vari settori.

Sistemi autonomi: Nelle auto a guida autonoma, l'inferenza in tempo reale è una questione di sicurezza. I modelli devono eseguire il rilevamento degli oggetti per identificare pedoni, altri veicoli e segnali stradali in pochi millisecondi, per navigare in sicurezza ed evitare collisioni. Allo stesso modo, i droni e i robot si affidano a questo sistema per la navigazione e l'interazione con l'ambiente.
Produzione intelligente: Su una linea di produzione, le telecamere dotate di intelligenza artificiale possono eseguire il controllo qualità in tempo reale. Un modello come Ultralytics YOLO11 può rilevare i difetti nei prodotti che si muovono su un nastro trasportatore, consentendone l'immediata rimozione. Si tratta di una componente fondamentale della moderna IA nel settore manifatturiero.
Assistenza sanitaria interattiva: Durante un intervento chirurgico, un modello potrebbe analizzare il video in diretta di una telecamera per fornire indicazioni in tempo reale al chirurgo. In ambito diagnostico, l'analisi delle immagini mediche in tempo reale può aiutare i medici a identificare più rapidamente le anomalie durante le scansioni dal vivo.
Sorveglianza intelligente: I moderni sistemi di sicurezza utilizzano l'inferenza in tempo reale per analizzare i feed video e identificare potenziali minacce, come ingressi non autorizzati o pacchi abbandonati, attivando avvisi immediati. In questo modo si va oltre la semplice registrazione e si passa a un monitoraggio attivo e intelligente.

Ottenere prestazioni in tempo reale

L'esecuzione di modelli sufficientemente veloci per applicazioni di calcolo in tempo reale richiede spesso un'ottimizzazione significativa:

Ottimizzazione del modello: Tecniche come la quantizzazione del modello (riduzione della precisione dei pesi del modello) e la potatura del modello (rimozione delle parti ridondanti del modello) riducono il carico computazionale e l'utilizzo della memoria.
Accelerazione hardware: L'utilizzo di hardware specializzato come GPU, TPU (Tensor Processing Unit) o acceleratori AI dedicati sui dispositivi edge (ad esempio, NVIDIA Jetson, Google Coral Edge TPU) può accelerare notevolmente i calcoli. L 'edge computing stesso è fondamentale per elaborare i dati a livello locale con un ritardo minimo.
Motori di inferenza efficienti: Librerie software e runtime come TensorRT, OpenVINO, ONNX Runtime e framework come PyTorch o TensorFlow forniscono percorsi di esecuzione ottimizzati per i modelli addestrati. Un motore di inferenza è progettato specificamente per eseguire i modelli in modo efficiente per la predizione.

Modelli come Ultralytics YOLO sono stati progettati tenendo conto dell'efficienza e dell'accuratezza, il che li rende adatti a compiti di rilevamento di oggetti in tempo reale. Piattaforme come Ultralytics HUB forniscono strumenti per addestrare, ottimizzare (ad esempio, esportare nei formati ONNX o TensorRT) e distribuire i modelli, facilitando l'implementazione di soluzioni di inferenza in tempo reale attraverso varie opzioni di distribuzione.

Inferenza in tempo reale

Soluzione flessibile di licensing aziendale per alimentare la vostra innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestrare i modelli YOLO in modo semplice con Ultralytics HUB

Inferenza in tempo reale contro inferenza in batch Inferenza batch

Applicazioni nel mondo reale

Ottenere prestazioni in tempo reale

Per saperne di più in questa categoria

Conoscere la produzione additiva: Tecnologia e casi d'uso

Monitoraggio delle operazioni aeroportuali a terra con Ultralytics YOLO11

L'evoluzione e il futuro della robotica nella produzione

Unitevi alla comunità di Ultralytics