Esplora il prompt Chain-of-Thought (CoT) per migliorare il ragionamento dell'IA. Scopri come suddividere le attività in passaggi logici migliora la generazione di codice per Ultralytics .
Il prompting Chain-of-Thought (CoT) è una tecnica avanzata di prompt engineering che consente ai modelli linguistici di grandi dimensioni (LLM) di risolvere compiti di ragionamento complessi suddividendoli in passaggi logici intermedi. Anziché chiedere a un modello di fornire una risposta finale immediata, il CoT incoraggia il sistema a generare un "filo logico" che imita il processo di risoluzione dei problemi umano. Questo ragionamento passo dopo passo migliora significativamente le prestazioni in compiti che coinvolgono aritmetica, logica simbolica e ragionamento basato sul buon senso, trasformando il modo in cui interagiamo con i sistemi di intelligenza artificiale (AI).
I modelli linguistici standard spesso hanno difficoltà con i problemi in più fasi perché tentano di mappare l'input direttamente sull' output in un unico passaggio. Questo approccio "black box" può portare a errori, in particolare quando il salto logico è troppo grande. Il prompting Chain-of-Thought risolve questo problema inserendo passaggi di ragionamento tra la domanda di input e l' output finale.
Questo processo funziona generalmente in due modi:
Generando esplicitamente ragionamenti intermedi, il modello ha più opportunità di correggersi e fornisce trasparenza su come è giunto a una conclusione. Ciò è fondamentale per ridurre le allucinazioni nei modelli di apprendimento profondo (LLM), dove i modelli potrebbero altrimenti affermare con sicurezza fatti errati.
Sebbene inizialmente sviluppato per la logica basata sul testo, il prompting Chain-of-Thought ha potenti applicazioni se combinato con altri domini dell'IA, come la visione artificiale e la generazione di codice.
Gli sviluppatori utilizzano il CoT per guidare gli LLM nella scrittura di script software complessi per attività come il rilevamento di oggetti. Invece di una richiesta vaga come "scrivi il codice per trovare le auto", un prompt CoT potrebbe strutturare la richiesta: "In primo luogo, importa le librerie necessarie . In secondo luogo, carica il modello pre-addestrato. In terzo luogo, definisci la fonte dell'immagine. Infine, esegui il ciclo di previsione". Questo approccio strutturato garantisce che il codice generato per modelli come YOLO26 sia sintatticamente corretto e logicamente valido.
Nel campo dei veicoli autonomi, i sistemi devono elaborare dati visivi e prendere decisioni critiche per la sicurezza. Un approccio Chain-of-Thought permette al sistema di articolare la sua logica: " detect pedone vicino alle strisce pedonali. Il pedone è rivolto verso la strada. Il semaforo è verde per me, ma il pedone potrebbe attraversare. Pertanto, rallenterò e mi preparerò a fermarmi". Questo rende le decisioni dell'IA interpretabili e in linea con i principi dell'IA spiegabile (XAI).
Sebbene il CoT sia principalmente una tecnica di linguaggio naturale, può essere implementato a livello di programmazione per garantire interazioni coerenti con i modelli di visione. Il seguente Python mostra come uno sviluppatore potrebbe strutturare un prompt per guidare un LLM (qui simulato) nella generazione di codice di inferenza valido per Ultralytics .
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")
È importante distinguere il prompting della catena di pensiero da termini simili nel panorama del Machine Learning (ML):
Con la continua evoluzione dei modelli di base, il prompting Chain-of-Thought sta diventando una best practice standard per sfruttarne appieno il potenziale. Ricerche condotte da gruppi come Google DeepMind suggeriscono che, con l'aumentare delle dimensioni dei modelli, la loro capacità di eseguire ragionamenti CoT migliora notevolmente. Questa evoluzione sta aprendo la strada ad agenti più affidabili e autonomi, in grado di gestire flussi di lavoro complessi in settori che vanno dall' assistenza sanitaria alla produzione intelligente.