Explore o prompt Chain-of-Thought (CoT) para melhorar o raciocínio da IA. Saiba como dividir tarefas em etapas lógicas melhora a geração de código para Ultralytics .
O prompt Chain-of-Thought (CoT) é uma técnica avançada em engenharia de prompts que permite que grandes modelos de linguagem (LLMs) resolvam tarefas complexas de raciocínio, dividindo-as em etapas lógicas intermediárias. Em vez de pedir a um modelo que forneça uma resposta final imediata, o CoT incentiva o sistema a gerar uma "cadeia de pensamentos" que imita a resolução de problemas humana. Este raciocínio passo a passo melhora significativamente o desempenho em tarefas que envolvem aritmética, lógica simbólica e raciocínio de senso comum, transformando a forma como interagimos com sistemas de Inteligência Artificial (IA).
Os modelos de linguagem padrão muitas vezes têm dificuldade com problemas de várias etapas porque tentam mapear a entrada diretamente para a saída em uma única passagem. Essa abordagem de "caixa preta" pode levar a erros, especialmente quando o salto lógico é muito grande. O prompt Chain-of-Thought resolve isso inserindo etapas de raciocínio entre a pergunta de entrada e a saída final.
Este processo geralmente funciona de duas maneiras:
Ao gerar explicitamente raciocínios intermediários, o modelo tem mais oportunidades de se corrigir e oferece transparência sobre como chegou a uma conclusão. Isso é crucial para reduzir alucinações em LLMs, onde os modelos podem afirmar fatos incorretos com confiança.
Embora inicialmente desenvolvido para lógica baseada em texto, o prompt Chain-of-Thought tem aplicações poderosas quando combinado com outros domínios de IA, como visão computacional e geração de código.
Os programadores utilizam o CoT para orientar os LLMs na escrita de scripts de software complexos para tarefas como a deteção de objetos. Em vez de um pedido vago como "escrever código para encontrar carros", um prompt CoT pode estruturar o pedido: "Primeiro, importar as bibliotecas necessárias. Segundo, carregar o modelo pré-treinado. Terceiro, definir a fonte da imagem. Por fim, executar o loop de previsão." Essa abordagem estruturada garante que o código gerado para modelos como YOLO26 seja sintaticamente correto e logicamente válido.
No campo dos veículos autónomos, os sistemas devem processar dados visuais e tomar decisões críticas para a segurança. Uma abordagem de cadeia de pensamento permite que o sistema articule a sua lógica: detect peão perto da passadeira. O peão está de frente para a estrada. O semáforo está verde para mim, mas o peão pode atravessar. Portanto, vou abrandar e preparar-me para parar.» Isso torna as decisões da IA interpretáveis e alinha-se com os princípios da IA explicável (XAI).
Embora o CoT seja principalmente uma técnica de linguagem natural, ele pode ser implementado programaticamente para garantir interações consistentes com modelos de visão. O Python a seguir demonstra como um programador pode estruturar um prompt para orientar um LLM (simulado aqui) na geração de código de inferência válido para a Ultralytics .
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")
É importante diferenciar o prompting da cadeia de pensamento de termos semelhantes no cenário do Machine Learning (ML):
À medida que os modelos básicos continuam a evoluir, o prompting Chain-of-Thought está a tornar-se uma prática recomendada padrão para desbloquear todo o seu potencial. Pesquisas de grupos como o Google DeepMind sugerem que, à medida que os modelos aumentam de tamanho, a sua capacidade de realizar raciocínios CoT melhora drasticamente. Essa evolução está a abrir caminho para agentes autônomos mais confiáveis, capazes de lidar com fluxos de trabalho complexos em setores que vão desde saúde até fabricação inteligente.