Domine a engenharia de prompts para IA e visão computacional. Aprenda a otimizar entradas para LLMs e modelos multimodais, como Ultralytics , para obter resultados superiores.
A engenharia de prompts é o processo estratégico de projetar, refinar e otimizar o texto de entrada para orientar os modelos de Inteligência Artificial (IA) na produção de resultados precisos, relevantes e de alta qualidade. Inicialmente ganhando destaque com o surgimento dos grandes modelos de linguagem (LLMs), como o GPT-4, essa disciplina evoluiu para uma habilidade crítica para interagir com sistemas de IA generativa em várias modalidades, incluindo texto, imagem e vídeo. Em vez de alterar os pesos do modelo subjacente por meio de retreinamento, a engenharia de prompts aproveita o conhecimento existente do modelo, enquadrando a tarefa de uma forma que o sistema possa entender melhor, preenchendo a lacuna entre a intenção humana e a execução da máquina.
Na sua essência, a engenharia de prompts depende da compreensão de como os modelos básicos processam o contexto e as instruções. Um prompt bem construído reduz a ambiguidade, fornecendo restrições explícitas, formatos de saída desejados (como JSON ou Markdown) e informações contextuais relevantes . Profissionais avançados utilizam técnicas como aprendizagem com poucos exemplos, em que o utilizador fornece alguns exemplos de pares de entrada-saída dentro do prompt para demonstrar o padrão desejado.
Outra estratégia poderosa é a sugestão de cadeia de pensamento, que incentiva o modelo a dividir tarefas de raciocínio complexas em etapas intermediárias. Isso melhora significativamente o desempenho em consultas com grande carga lógica. Além disso, otimizar o uso da janela de contexto— o limite da quantidade de texto que um modelo pode processar de uma só vez — é crucial para manter a coerência em interações longas. Recursos externos, como o guia da OpenAI sobre design de prompts, enfatizam a importância do refinamento iterativo para lidar com casos extremos de forma eficaz.
Embora frequentemente associada ao texto, a engenharia de prompts é cada vez mais vital na Visão Computacional (CV). Modelos multimodais modernos e detectores de vocabulário aberto, como YOLO, permitem que os utilizadores definam alvos de detecção usando processamento de linguagem natural (NLP) em vez de IDs de classe numéricas pré-definidas.
Neste contexto, o «prompt» é uma descrição textual do objeto (por exemplo, «pessoa usando um capacete vermelho »). Essa capacidade, conhecida como aprendizagem zero-shot, permite que os sistemas detect em objetos nos quais não foram explicitamente treinados, aproveitando as associações aprendidas entre características visuais e incorporações semânticas . Para ambientes de produção de alta velocidade onde as classes são fixas, os desenvolvedores podem eventualmente fazer a transição de modelos prompt para modelos eficientes e retreinados, como o YOLO26, mas a engenharia de prompt continua sendo a chave para a rápida prototipagem e flexibilidade.
A engenharia rápida gera valor em diversos setores, permitindo uma automação flexível e inteligente:
O exemplo a seguir demonstra como o prompt engineering é aplicado programaticamente usando o
ultralytics pacote. Aqui, usamos um modelo YOLO que aceita prompts de texto para definir quais objetos
procurar dinamicamente, contrastando com modelos padrão como
YOLO26 que utilizam listas de turmas fixas.
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")
# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results - the model only detects objects matching the prompts
results[0].show()
Para implementar eficazmente soluções de IA através da Ultralytics , é importante distinguir a engenharia de prompts de técnicas de otimização semelhantes: