Domina la ingeniería de prompts para IA y visión artificial. Aprende a optimizar las entradas para modelos LLM y modelos multimodales como Ultralytics para obtener resultados superiores.
La ingeniería de prompts es el proceso estratégico de diseñar, refinar y optimizar el texto de entrada para guiar los modelos de inteligencia artificial (IA) hacia la producción de resultados precisos, relevantes y de alta calidad. Tras ganar protagonismo inicialmente con el auge de los grandes modelos de lenguaje (LLM) como GPT-4, esta disciplina se ha convertido en una habilidad fundamental para interactuar con sistemas de IA generativa en diversas modalidades, incluidos texto, imagen y vídeo. En lugar de alterar los pesos subyacentes del modelo mediante un nuevo entrenamiento, la ingeniería de prompts aprovecha los conocimientos existentes del modelo enmarcando la tarea de la forma que el sistema puede entender mejor, salvando la brecha entre la intención humana y la ejecución de la máquina.
En esencia, la ingeniería de prompts se basa en comprender cómo los modelos fundamentales procesan el contexto y las instrucciones. Un prompt bien construido reduce la ambigüedad al proporcionar restricciones explícitas, formatos de salida deseados (como JSON o Markdown) e información de fondo relevante . Los profesionales avanzados utilizan técnicas como el aprendizaje con pocos ejemplos, en el que el usuario proporciona unos pocos ejemplos de pares de entrada-salida dentro del prompt para demostrar el patrón deseado.
Otra estrategia eficaz es la indicación de cadena de pensamiento, que anima al modelo a desglosar tareas de razonamiento complejas en pasos intermedios. Esto mejora significativamente el rendimiento en consultas con un alto contenido lógico. Además, optimizar el uso de la ventana de contexto—el límite de la cantidad de texto que un modelo puede procesar a la vez— es crucial para mantener la coherencia en interacciones largas. Los recursos externos, como la guía de OpenAI sobre el diseño de indicaciones, enfatizan la importancia del refinamiento iterativo para manejar eficazmente los casos extremos.
Aunque a menudo se asocia con el texto, la ingeniería de prompts es cada vez más importante en la visión por ordenador (CV). Los modernos modelos multimodales y los detectores de vocabulario abierto, como YOLO, permiten a los usuarios definir los objetivos de detección utilizando el procesamiento del lenguaje natural (NLP) en lugar de identificadores numéricos de clase predefinidos.
En este contexto, la «indicación» es una descripción textual del objeto (por ejemplo, «persona con casco rojo »). Esta capacidad, conocida como aprendizaje sin disparo, permite a los sistemas detect objetos para los que no han sido entrenados explícitamente, aprovechando las asociaciones aprendidas entre las características visuales y las incrustaciones semánticas . Para entornos de producción de alta velocidad en los que las clases son fijas, los desarrolladores podrían eventualmente pasar de modelos con indicaciones a modelos eficientes y reentrenados como YOLO26, pero la ingeniería de indicaciones sigue siendo la clave para la rápida creación de prototipos y la flexibilidad.
La ingeniería rápida impulsa el valor en diversos sectores al permitir una automatización flexible e inteligente:
El siguiente ejemplo muestra cómo se aplica la ingeniería de avisos mediante programación utilizando la función
ultralytics paquete. Aquí utilizamos un modelo YOLO que acepta indicaciones de texto para definir qué objetos
buscar de forma dinámica, en contraste con modelos estándar como
YOLO26 que utilizan listas de clases fijas.
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")
# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results - the model only detects objects matching the prompts
results[0].show()
Para implementar eficazmente soluciones de IA a través de la Ultralytics , es importante distinguir la ingeniería de prompts de técnicas de optimización similares: