Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Concatenazione di Prompt (Prompt Chaining)

Scopri come il prompt chaining suddivide complesse attività di IA in flussi di lavoro affidabili. Scopri come integrare Ultralytics con gli LLM per creare agenti di IA avanzati.

Il concatenamento dei prompt è un modello architettonico avanzato nello sviluppo dell'intelligenza artificiale (AI) in cui un'attività complessa viene scomposta in una sequenza di sottoattività più piccole e gestibili. In questo flusso di lavoro, l'output di un passaggio, spesso generato da un modello linguistico di grandi dimensioni (LLM) o da un sistema di visione artificiale , funge da input per il passaggio successivo. A differenza di un singolo prompt monolitico che tenta di risolvere un problema multiforme tutto in una volta, il concatenamento consente agli sviluppatori di creare applicazioni più affidabili, testabili e capaci . Questo approccio modulare è essenziale per creare sofisticati agenti AI in grado di ragionare, navigare sul web o interagire con ambienti fisici.

La meccanica del concatenamento

Fondamentalmente, il concatenamento rapido affronta i limiti delle finestre di contesto e delle capacità di ragionamento nei modelli di base. Quando a un modello viene chiesto di eseguire troppe operazioni distinte in una singola richiesta (ad esempio, "Analizza questa immagine, estrai il testo, traducilo in spagnolo e formattalo come una fattura JSON"), la probabilità di errore aumenta. Dividendo questo in una pipeline, gli sviluppatori possono verificare l'accuratezza di ogni fase.

Le catene efficaci spesso utilizzano "codice collante" scritto in Python o gestito da librerie di orchestrazione come LangChain per gestire la trasformazione dei dati tra le varie fasi. Ciò consente l'integrazione di tecnologie disparate, come la combinazione dell'acuità visiva del rilevamento degli oggetti con la fluidità linguistica dei modelli di testo generativi.

Applicazioni nel mondo reale

Il concatenamento rapido è particolarmente potente quando colma il divario tra diverse modalità di dati, consentendo ai modelli multimodali di funzionare in contesti industriali e commerciali dinamici .

  1. Reportistica visiva automatizzata: nella produzione intelligente, un sistema di controllo qualità può collegare un modello di visione con un LLM. Innanzitutto, un modello ad alta velocità come Ultralytics esegue la scansione dei componenti su una linea di assemblaggio. L'output strutturato (ad esempio, "Classe: Dented_Can, Affidabilità: 0,92") viene convertito in una stringa di testo. Questo testo viene quindi passato a un modello linguistico con un prompt del tipo "Redigi una richiesta di manutenzione basata su questo difetto", generando un'e-mail leggibile dall'uomo per il responsabile di reparto.
  2. Assistenza clienti sensibile al contesto: i chatbot intelligenti utilizzano spesso il concatenamento per gestire le richieste complesse degli utenti . Il primo anello della catena potrebbe utilizzare l' elaborazione del linguaggio naturale (NLP) per classify l'intento classify . Se l'intento è tecnico, il sistema attiva un flusso di lavoro di generazione aumentata dal recupero (RAG) : genera incorporamenti per la query, cerca la documentazione in un database vettoriale e infine richiede a un LLM di sintetizzare i frammenti recuperati in una risposta utile.

Esempio di codice Vision-to-Language

L'esempio seguente illustra il primo "anello" di una catena: l'utilizzo della visione artificiale (CV) per generare dati strutturati che fungono da contesto per un prompt a valle.

from ultralytics import YOLO

# Load the YOLO26 model (natively end-to-end and highly efficient)
model = YOLO("yolo26n.pt")

# Step 1: Run inference to 'see' the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Step 2: Format visual detections into a natural language string
det_names = [model.names[int(c)] for c in results[0].boxes.cls]
prompt_context = f"The scene contains: {', '.join(det_names)}. Please describe the likely activity."

# The 'prompt_context' variable is now ready to be sent to an LLM API
print(prompt_context)

Distinguere i concetti correlati

Per implementare architetture di Machine Learning (ML) efficaci, è utile distinguere il prompt chaining da termini simili nel panorama dell'intelligenza artificiale:

  • Vs. Prompting della catena di pensiero: La catena di pensiero (CoT) è una tecnica utilizzata all'interno di un singolo prompt per incoraggiare un modello a "mostrare il proprio lavoro" (ad esempio, "Pensa passo dopo passo"). Il concatenamento dei prompt comporta più chiamate API distinte in cui l' input al passo B dipende dall'output del passo A.
  • Vs. Prompt Engineering: Il prompt engineering è la disciplina più ampia che si occupa di ottimizzare gli input di testo per ottenere prestazioni migliori dal modello. Il chaining è un modello di ingegneria specifico che si concentra sul flusso sequenziale delle operazioni e sul controllo logico.
  • Vs. Ottimizzazione dei prompt: L'ottimizzazione dei prompt è un metodo di ottimizzazione del modello che aggiorna i parametri apprendibili (prompt soft) durante una fase di addestramento. Il concatenamento dei prompt avviene interamente durante l' inferenza in tempo reale e non altera i pesi del modello.

Sfruttando il prompt chaining, i team possono creare applicazioni robuste che integrano logica, recupero dati e riconoscimento delle azioni. Per la gestione dei set di dati e l'addestramento dei modelli di visione che alimentano queste catene, Ultralytics offre una soluzione centralizzata per l'annotazione, l' addestramento e l'implementazione.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora