Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Kỹ thuật Prompt

Nắm vững kỹ thuật xử lý xung nhịp cho Trí tuệ nhân tạo và Thị giác máy tính. Học cách tối ưu hóa đầu vào cho các mô hình LLM và mô hình đa phương thức như... Ultralytics Sử dụng YOLO26 để đạt được kết quả vượt trội.

Kỹ thuật xử lý thông tin đầu vào (prompt engineering) là quy trình chiến lược thiết kế, tinh chỉnh và tối ưu hóa văn bản đầu vào để hướng dẫn các mô hình Trí tuệ Nhân tạo (AI) tạo ra đầu ra chính xác, phù hợp và chất lượng cao. Ban đầu nổi lên cùng với sự phát triển của các Mô hình Ngôn ngữ Lớn (LLM) như GPT-4, lĩnh vực này đã phát triển thành một kỹ năng quan trọng để tương tác với các hệ thống AI tạo sinh trên nhiều phương thức khác nhau, bao gồm văn bản, hình ảnh và video. Thay vì thay đổi trọng số mô hình cơ bản thông qua việc huấn luyện lại, kỹ thuật xử lý thông tin đầu vào tận dụng kiến ​​thức hiện có của mô hình bằng cách định hình nhiệm vụ theo cách mà hệ thống có thể hiểu rõ nhất, thu hẹp khoảng cách giữa ý định của con người và khả năng thực thi của máy móc.

Cơ chế nhắc nhở hiệu quả

Về bản chất, kỹ thuật tạo lời nhắc dựa trên việc hiểu cách các mô hình nền tảng xử lý ngữ cảnh và hướng dẫn. Một lời nhắc được xây dựng tốt sẽ giảm thiểu sự mơ hồ bằng cách cung cấp các ràng buộc rõ ràng, định dạng đầu ra mong muốn (chẳng hạn như JSON hoặc...) Markdown ), và thông tin nền tảng liên quan. Những người thực hành nâng cao sử dụng các kỹ thuật như học ít mẫu (few-shot learning ), trong đó người dùng cung cấp một vài ví dụ về các cặp đầu vào-đầu ra trong lời nhắc để minh họa mô hình mong muốn.

Một chiến lược mạnh mẽ khác là gợi ý theo chuỗi suy nghĩ , khuyến khích mô hình chia nhỏ các nhiệm vụ suy luận phức tạp thành các bước trung gian. Điều này cải thiện đáng kể hiệu suất đối với các truy vấn nặng về logic. Hơn nữa, việc tối ưu hóa việc sử dụng cửa sổ ngữ cảnh — giới hạn về lượng văn bản mà mô hình có thể xử lý cùng một lúc — là rất quan trọng để duy trì tính mạch lạc trong các tương tác dài. Các nguồn tài liệu bên ngoài, chẳng hạn như hướng dẫn về thiết kế gợi ý của OpenAI , nhấn mạnh tầm quan trọng của việc tinh chỉnh lặp đi lặp lại để xử lý hiệu quả các trường hợp ngoại lệ.

Mức độ Liên quan trong Thị giác Máy tính

Mặc dù thường được liên kết với văn bản, kỹ thuật xử lý thông tin nhanh ngày càng trở nên quan trọng trong Thị giác máy tính (CV) . Các mô hình đa phương thức hiện đại và các bộ phát hiện từ vựng mở, chẳng hạn như YOLO -World , cho phép người dùng xác định các mục tiêu phát hiện bằng cách sử dụng xử lý ngôn ngữ tự nhiên (NLP) thay vì các ID lớp số được xác định trước.

Trong ngữ cảnh này, "lời nhắc" là mô tả bằng văn bản về đối tượng (ví dụ: "người đội mũ bảo hiểm màu đỏ"). Khả năng này, được gọi là học không cần dữ liệu huấn luyện (zero-shot learning ), cho phép các hệ thống detect Các đối tượng mà chúng không được huấn luyện rõ ràng bằng cách tận dụng các liên kết đã học được giữa các đặc điểm hình ảnh và nhúng ngữ nghĩa. Đối với môi trường sản xuất tốc độ cao, nơi các lớp được cố định, các nhà phát triển cuối cùng có thể chuyển từ các mô hình được gợi ý sang các mô hình được huấn luyện lại hiệu quả như YOLO26 , nhưng kỹ thuật gợi ý vẫn là chìa khóa để tạo mẫu nhanh và tính linh hoạt.

Các Ứng dụng Thực tế

Kỹ thuật tiên tiến thúc đẩy giá trị trên nhiều ngành công nghiệp khác nhau bằng cách cho phép tự động hóa linh hoạt và thông minh:

  • Phân tích hình ảnh động: Trong AI ứng dụng bán lẻ , người quản lý cửa hàng sử dụng các mô hình thị giác dựa trên gợi ý để tìm kiếm các mặt hàng cụ thể mà không cần sự can thiệp kỹ thuật. Hệ thống có thể được gợi ý để thực hiện các thao tác sau: track Hôm nay thì "kệ trống trơn", ngày mai lại là "sản phẩm đặt sai chỗ". Sự linh hoạt này cho phép các doanh nghiệp điều chỉnh hệ thống nhận diện vật thể của họ theo xu hướng theo mùa ngay lập tức.
  • Tạo nội dung tự động: Các nhóm tiếp thị dựa vào các hướng dẫn chi tiết để điều khiển các công cụ chuyển đổi văn bản thành hình ảnh như Stable Diffusion hoặc Midjourney . Bằng cách thiết kế các hướng dẫn chỉ định ánh sáng, phong cách nghệ thuật và bố cục, các nhà thiết kế có thể nhanh chóng tạo ra các nội dung hình ảnh.
  • Tìm kiếm kiến ​​thức thông minh: Trong hỗ trợ khách hàng, các kỹ sư thiết kế "lời nhắc hệ thống" hướng dẫn chatbot trả lời các câu hỏi chỉ bằng cách sử dụng dữ liệu đã được xác minh của công ty. Đây là một thành phần quan trọng của Thế hệ tăng cường tìm kiếm (RAG) , đảm bảo AI duy trì vai trò hỗ trợ hữu ích đồng thời tránh gây ảo giác trong LLM .

Thực hiện với Ultralytics

Ví dụ sau đây minh họa cách áp dụng kỹ thuật nhanh chóng theo chương trình bằng cách sử dụng ultralytics gói. Ở đây, chúng ta sử dụng một YOLO - Mô hình thế giới chấp nhận các lời nhắc bằng văn bản để xác định động các đối tượng cần tìm kiếm, trái ngược với các mô hình tiêu chuẩn như... YOLO26 sử dụng danh sách lớp cố định.

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")

# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results - the model only detects objects matching the prompts
results[0].show()

Phân biệt các khái niệm liên quan

Để triển khai hiệu quả các giải pháp AI thông qua Nền tảng Ultralytics , điều quan trọng là phải phân biệt kỹ thuật xử lý sự cố tức thời với các kỹ thuật tối ưu hóa tương tự:

  • Kỹ thuật tạo lời nhắc so với tinh chỉnh lời nhắc : Kỹ thuật tạo lời nhắc liên quan đến việc tạo ra các đầu vào ngôn ngữ tự nhiên một cách thủ công. Ngược lại, tinh chỉnh lời nhắc là một phương pháp tinh chỉnh hiệu quả tham số (PEFT) học các "lời nhắc mềm" (nhúng vectơ liên tục) trong giai đoạn huấn luyện. Những lời nhắc mềm này là các tối ưu hóa toán học mà người dùng không thể nhận biết được.
  • Kỹ thuật tức thời so với tinh chỉnh : Tinh chỉnh cập nhật vĩnh viễn trọng số của mô hình bằng cách sử dụng tập dữ liệu huấn luyện cụ thể để chuyên biệt hóa mô hình cho một nhiệm vụ. Kỹ thuật tức thời không thay đổi bản thân mô hình; nó chỉ tối ưu hóa đầu vào trong quá trình suy luận thời gian thực .
  • Kỹ thuật điều khiển mô hình so với tấn công chèn mã độc : Trong khi kỹ thuật điều khiển mang tính xây dựng, tấn công chèn mã độc là một lỗ hổng bảo mật, trong đó các đầu vào độc hại thao túng mô hình khiến nó bỏ qua các ràng buộc an toàn. Đảm bảo an toàn cho AI đòi hỏi phải có hệ thống phòng thủ mạnh mẽ chống lại các tấn công chèn mã độc như vậy.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay