Impara gli elementi essenziali del model serving: distribuisci i modelli AI per ottenere previsioni in tempo reale, scalabilità e integrazione perfetta nelle applicazioni.
Una volta che un modello di Machine Learning (ML) è stato addestrato e convalidato, il passo successivo è renderlo disponibile per generare previsioni su nuovi dati. Questo processo è noto come Model Serving. Si tratta di distribuire un modello addestrato in un ambiente di produzione, in genere dietro un endpoint API, consentendo alle applicazioni o ad altri sistemi di richiedere previsioni in tempo reale. Il Model Serving funge da ponte tra il modello sviluppato e la sua applicazione pratica, trasformandolo da un file statico in un servizio attivo e generatore di valore all'interno del più ampio ciclo di vita del Machine Learning.
Il servizio del modello è fondamentale per rendere operativi i modelli di ML. Senza di esso, anche i modelli più accurati, come lo stato dell'arte di Ultralytics YOLO di Ulralytics, rimangono isolati negli ambienti di sviluppo e non sono in grado di influenzare i processi del mondo reale. Un model serving efficace garantisce:
Il model serving abilita innumerevoli funzioni basate sull'intelligenza artificiale con cui interagiamo quotidianamente. Ecco due esempi:
L'implementazione di un robusto sistema di servizio dei modelli coinvolge diversi componenti:
Anche se i termini Model Deployment e Model Serving sono spesso correlati, non sono identici. La distribuzione dei modelli è il concetto più ampio di rendere disponibile all'uso un modello addestrato. Questo può comprendere varie strategie, tra cui l'integrazione dei modelli direttamente nelle applicazioni, la distribuzione su dispositivi edge per l'inferenza offline o l'impostazione di pipeline di elaborazione batch che eseguono periodicamente le previsioni. Puoi esplorare diverse opzioni di distribuzione dei modelli in base alle tue esigenze.
Il model serving si riferisce specificamente alla distribuzione di un modello come servizio di rete, solitamente accessibile tramite un'API, progettato per gestire le richieste di previsione on-demand, spesso in tempo reale. Si tratta di un tipo specifico di distribuzione del modello che si concentra sulla fornitura di funzionalità di inferenza continua con considerazioni di scalabilità e bassa latenza. Per molte applicazioni interattive che richiedono previsioni immediate, il model serving è il metodo di distribuzione preferito.