深圳Yolo 视觉
深圳
立即加入
词汇表

提示工程

精通AI与计算机视觉的提示工程。学习如何优化输入参数,为大型语言模型(LLMs)及多模态模型(Ultralytics )实现卓越效果。

提示工程是通过设计、精炼和优化输入文本,引导人工智能(AI)模型生成准确、相关且高质量输出的战略性过程。随着GPT-4等大型语言模型(LLMs)的兴起,该领域最初崭露头角,现已发展为与生成式AI系统进行跨模态交互的关键技能,涵盖文本、图像及视频等多种形式。 该领域已发展为与生成式AI系统交互的关键技能, 涵盖文本、图像及视频等多模态场景。 与通过重新训练改变模型权重不同, 提示工程通过构建系统最易理解的任务框架, 利用模型现有知识体系, 从而弥合人类意图与机器执行之间的鸿沟。

有效提示的机制

本质上,提示工程依赖于理解基础模型如何处理上下文和指令。精心设计的提示通过提供明确约束、期望的输出格式(如JSON Markdown)以及相关背景信息来降低模糊性。高级实践者会运用少样本学习等技术——用户在提示中提供少量输入-输出对示例来展示期望的模式。

另一种强有力的策略是 链式推理提示,它 鼓励模型将复杂推理任务分解为中间步骤。这显著提升了 逻辑密集型查询的处理能力。此外,优化上下文窗口的使用——即模型 单次可处理的文本量上限——对维持长交互的一致性至关重要。 外部资源(如OpenAI的提示设计指南)强调 通过迭代优化有效处理边界案例的重要性。

在计算机视觉中的相关性

虽然提示工程常与文本相关联,但在计算机视觉(CV)领域正日益显得至关重要。现代多模态模型和开放词汇检测器(如YOLO)允许用户通过自然语言处理(NLP)而非预定义的数值类ID来定义检测目标。

在此背景下,"提示"是对物体的文本描述(例如"戴红色头盔的人")。这种被称为零样本学习的能力,使系统能够通过利用视觉特征与语义嵌入之间的关联,detect 未经过显式训练的物体。 在类别固定的高速生产环境中,开发者最终可能从提示模型转向高效的再训练模型(如YOLO26),但提示工程仍是快速原型开发和灵活部署的关键。

实际应用

提示工程通过实现灵活智能的自动化,为多元化行业创造价值:

利用Ultralytics实施

下面的示例演示了如何使用 ultralytics 包。在此,我们采用YOLO该模型通过文本提示动态定义目标物体,与标准模型(如 YOLO26 使用固定班级名单的。

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")

# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results - the model only detects objects matching the prompts
results[0].show()

区分相关概念

Ultralytics 有效部署AI解决方案, 关键在于区分提示工程与类似的优化技术:

  • 提示工程与提示调优 提示工程涉及手动构造自然语言输入。相较之下,提示调优是一种参数高效微调(PEFT)方法,在训练阶段学习"软提示"(连续向量嵌入)。这些软提示是数学优化结果,对人类用户不可见。
  • 提示工程与微调 微调通过特定训练数据集永久更新模型权重,使其专用于特定任务。 提示工程不改变模型本身,仅在实时推理过程中优化输入。
  • 提示工程与 提示注入 工程设计具有建设性,而提示注入则是安全漏洞——恶意输入可诱使模型绕过安全约束。保障 人工智能安全需构建抵御此类对抗性提示的 强健防御机制。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入