Glossario

Caching dei prompt

Aumenta l'efficienza dell'intelligenza artificiale con il caching immediato! Scopri come ridurre la latenza, tagliare i costi e scalare le app di intelligenza artificiale utilizzando questa potente tecnica.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La cache dei prompt è una tecnica utilizzata nell'IA e nell'apprendimento automatico per memorizzare e riutilizzare le risposte dei Large Language Models (LLM) o di altri modelli generativi per richieste frequenti o simili. Questo metodo migliora significativamente l'efficienza e la velocità delle applicazioni di IA riducendo la necessità di rieseguire inferenze del modello ad alta intensità di calcolo per richieste identiche o quasi identiche dell'utente.

Capire la cache dei prompt

Di base, il prompt caching funziona in modo simile al web caching. Quando un utente inserisce un prompt, il sistema controlla innanzitutto se nella cache esiste già una risposta per quel prompt. Se viene trovata una corrispondenza (un "cache hit"), la risposta memorizzata viene fornita immediatamente, evitando il processo di inferenza LLM. Se non viene trovata alcuna corrispondenza (una "cache miss"), il prompt viene elaborato dall'LLM, la risposta viene generata e quindi memorizzata nella cache per un uso futuro, prima di essere inviata all'utente.

L'efficacia della cache dei messaggi dipende da diversi fattori, tra cui la frequenza dei messaggi ripetuti o simili, la dimensione e l'efficienza della cache e la strategia utilizzata per determinare i risultati della cache. Ad esempio, si può utilizzare una semplice corrispondenza esatta dei prompt, oppure tecniche più avanzate possono considerare la somiglianza semantica per identificare i prompt che sono concettualmente uguali anche se formulati in modo diverso.

Vantaggi e applicazioni

Il caching dei prompt offre diversi vantaggi chiave, soprattutto nelle applicazioni che gestiscono un elevato volume di interazioni con gli utenti o in cui i tempi di risposta sono critici.

  • Latenza ridotta: Servendo le risposte direttamente dalla cache, le applicazioni possono rispondere molto più velocemente alle richieste degli utenti, migliorando la loro esperienza. Questo aspetto è particolarmente importante nelle applicazioni in tempo reale come i chatbot o gli assistenti virtuali. Per saperne di più sulla creazione di chatbot e altre applicazioni, consulta il post del blog Ultralytics su Vision AI in Crowd Management.
  • Efficienza dei costi: L'inferenza LLM può essere computazionalmente costosa. La memorizzazione nella cache riduce il numero di chiamate all'inferenza, consentendo un notevole risparmio sui costi, soprattutto per le applicazioni che presentano frequenti richieste simili. Questa efficienza è in linea con l'impegno di Ultralytics nel creare soluzioni di intelligenza artificiale accessibili ed efficienti, come evidenziato nell'articolo "Ultralytics YOLO11 Has Arrived! Ridefinisce ciò che è possibile fare con l'IA!".
  • Scalabilità: Il caching consente alle applicazioni di IA di gestire un numero maggiore di richieste senza aumentare il carico dell'infrastruttura LLM. Questa migliore scalabilità è essenziale per l'implementazione di soluzioni di IA in ambienti ad alta domanda, come quelli discussi nel contesto del cloud computing per l'IA.

Esempi del mondo reale

  1. Chatbot AI: Nel servizio clienti o nei chatbot generici, molte domande degli utenti sono ripetitive o rientrano in categorie comuni. Il caching dei prompt può rispondere istantaneamente alle domande più frequenti, come "Quali sono i vostri orari di lavoro?" o "Come faccio a reimpostare la mia password?". In questo modo il chatbot può gestire in modo efficiente un volume maggiore di conversazioni. Considera come questo possa essere integrato con l'analisi del sentimento, come descritto nella nostra pagina di glossario sull'analisi del sentimento, per ottenere interazioni ancora più reattive e consapevoli del contesto.

  2. Motori di ricerca semantici: I motori di ricerca che utilizzano l'elaborazione del linguaggio naturale (NLP) per comprendere il significato delle query di ricerca possono trarre vantaggio dal caching immediato. Se più utenti pongono domande simili su un argomento, il sistema può memorizzare e riutilizzare l'interpretazione del modello NLP e i risultati iniziali della ricerca, accelerando i tempi di risposta. Per saperne di più sulle tecnologie sottostanti, consulta la nostra pagina del glossario sull'elaborazione del linguaggio naturale (NLP). Ciò si collega anche al concetto di ricerca semantica, migliorando la pertinenza e la velocità dei risultati.

Considerazioni sull'implementazione

L'implementazione efficace del prompt caching richiede un'attenta considerazione delle strategie di invalidazione della cache. Le cache devono essere aggiornate o invalidate quando i dati o il modello sottostante cambiano per garantire che le risposte rimangano accurate e pertinenti. Ad esempio, se gli orari di lavoro di un chatbot cambiano, la risposta in cache alla domanda "Quali sono i tuoi orari di lavoro?" deve essere aggiornata. Le strategie vanno dalla scadenza temporale a metodi più complessi che tengono conto degli aggiornamenti dei dati e della riqualificazione del modello.

Il Prompt Caching è una tecnica preziosa per ottimizzare le prestazioni e l'economicità delle applicazioni di IA che utilizzano LLM e modelli generativi. Comprendendone i principi e le applicazioni, gli sviluppatori possono costruire sistemi di IA più efficienti e facili da usare. Un'ulteriore esplorazione dei metodi di efficienza correlati, come il model pruning o la quantizzazione dei modelli, può migliorare ulteriormente le prestazioni delle soluzioni di IA.

Leggi tutto