精通AI与计算机视觉的提示工程。学习如何优化输入参数,为大型语言模型(LLMs)及多模态模型(Ultralytics )实现卓越效果。
提示工程是通过设计、精炼和优化输入文本,引导人工智能(AI)模型生成准确、相关且高质量输出的战略性过程。随着GPT-4等大型语言模型(LLMs)的兴起,该领域最初崭露头角,现已发展为与生成式AI系统进行跨模态交互的关键技能,涵盖文本、图像及视频等多种形式。 该领域已发展为与生成式AI系统交互的关键技能, 涵盖文本、图像及视频等多模态场景。 与通过重新训练改变模型权重不同, 提示工程通过构建系统最易理解的任务框架, 利用模型现有知识体系, 从而弥合人类意图与机器执行之间的鸿沟。
本质上,提示工程依赖于理解基础模型如何处理上下文和指令。精心设计的提示通过提供明确约束、期望的输出格式(如JSON Markdown)以及相关背景信息来降低模糊性。高级实践者会运用少样本学习等技术——用户在提示中提供少量输入-输出对示例来展示期望的模式。
另一种强有力的策略是 链式推理提示,它 鼓励模型将复杂推理任务分解为中间步骤。这显著提升了 逻辑密集型查询的处理能力。此外,优化上下文窗口的使用——即模型 单次可处理的文本量上限——对维持长交互的一致性至关重要。 外部资源(如OpenAI的提示设计指南)强调 通过迭代优化有效处理边界案例的重要性。
虽然提示工程常与文本相关联,但在计算机视觉(CV)领域正日益显得至关重要。现代多模态模型和开放词汇检测器(如YOLO)允许用户通过自然语言处理(NLP)而非预定义的数值类ID来定义检测目标。
在此背景下,"提示"是对物体的文本描述(例如"戴红色头盔的人")。这种被称为零样本学习的能力,使系统能够通过利用视觉特征与语义嵌入之间的关联,detect 未经过显式训练的物体。 在类别固定的高速生产环境中,开发者最终可能从提示模型转向高效的再训练模型(如YOLO26),但提示工程仍是快速原型开发和灵活部署的关键。
提示工程通过实现灵活智能的自动化,为多元化行业创造价值:
下面的示例演示了如何使用
ultralytics 包。在此,我们采用YOLO该模型通过文本提示动态定义目标物体,与标准模型(如
YOLO26 使用固定班级名单的。
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")
# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results - the model only detects objects matching the prompts
results[0].show()
要Ultralytics 有效部署AI解决方案, 关键在于区分提示工程与类似的优化技术: