Nắm vững kỹ thuật xử lý xung nhịp cho Trí tuệ nhân tạo và Thị giác máy tính. Học cách tối ưu hóa đầu vào cho các mô hình LLM và mô hình đa phương thức như... Ultralytics Sử dụng YOLO26 để đạt được kết quả vượt trội.
Kỹ thuật xử lý thông tin đầu vào (prompt engineering) là quy trình chiến lược thiết kế, tinh chỉnh và tối ưu hóa văn bản đầu vào để hướng dẫn các mô hình Trí tuệ Nhân tạo (AI) tạo ra đầu ra chính xác, phù hợp và chất lượng cao. Ban đầu nổi lên cùng với sự phát triển của các Mô hình Ngôn ngữ Lớn (LLM) như GPT-4, lĩnh vực này đã phát triển thành một kỹ năng quan trọng để tương tác với các hệ thống AI tạo sinh trên nhiều phương thức khác nhau, bao gồm văn bản, hình ảnh và video. Thay vì thay đổi trọng số mô hình cơ bản thông qua việc huấn luyện lại, kỹ thuật xử lý thông tin đầu vào tận dụng kiến thức hiện có của mô hình bằng cách định hình nhiệm vụ theo cách mà hệ thống có thể hiểu rõ nhất, thu hẹp khoảng cách giữa ý định của con người và khả năng thực thi của máy móc.
Về bản chất, kỹ thuật tạo lời nhắc dựa trên việc hiểu cách các mô hình nền tảng xử lý ngữ cảnh và hướng dẫn. Một lời nhắc được xây dựng tốt sẽ giảm thiểu sự mơ hồ bằng cách cung cấp các ràng buộc rõ ràng, định dạng đầu ra mong muốn (chẳng hạn như JSON hoặc...) Markdown ), và thông tin nền tảng liên quan. Những người thực hành nâng cao sử dụng các kỹ thuật như học ít mẫu (few-shot learning ), trong đó người dùng cung cấp một vài ví dụ về các cặp đầu vào-đầu ra trong lời nhắc để minh họa mô hình mong muốn.
Một chiến lược mạnh mẽ khác là gợi ý theo chuỗi suy nghĩ , khuyến khích mô hình chia nhỏ các nhiệm vụ suy luận phức tạp thành các bước trung gian. Điều này cải thiện đáng kể hiệu suất đối với các truy vấn nặng về logic. Hơn nữa, việc tối ưu hóa việc sử dụng cửa sổ ngữ cảnh — giới hạn về lượng văn bản mà mô hình có thể xử lý cùng một lúc — là rất quan trọng để duy trì tính mạch lạc trong các tương tác dài. Các nguồn tài liệu bên ngoài, chẳng hạn như hướng dẫn về thiết kế gợi ý của OpenAI , nhấn mạnh tầm quan trọng của việc tinh chỉnh lặp đi lặp lại để xử lý hiệu quả các trường hợp ngoại lệ.
Mặc dù thường được liên kết với văn bản, kỹ thuật xử lý thông tin nhanh ngày càng trở nên quan trọng trong Thị giác máy tính (CV) . Các mô hình đa phương thức hiện đại và các bộ phát hiện từ vựng mở, chẳng hạn như YOLO -World , cho phép người dùng xác định các mục tiêu phát hiện bằng cách sử dụng xử lý ngôn ngữ tự nhiên (NLP) thay vì các ID lớp số được xác định trước.
Trong ngữ cảnh này, "lời nhắc" là mô tả bằng văn bản về đối tượng (ví dụ: "người đội mũ bảo hiểm màu đỏ"). Khả năng này, được gọi là học không cần dữ liệu huấn luyện (zero-shot learning ), cho phép các hệ thống detect Các đối tượng mà chúng không được huấn luyện rõ ràng bằng cách tận dụng các liên kết đã học được giữa các đặc điểm hình ảnh và nhúng ngữ nghĩa. Đối với môi trường sản xuất tốc độ cao, nơi các lớp được cố định, các nhà phát triển cuối cùng có thể chuyển từ các mô hình được gợi ý sang các mô hình được huấn luyện lại hiệu quả như YOLO26 , nhưng kỹ thuật gợi ý vẫn là chìa khóa để tạo mẫu nhanh và tính linh hoạt.
Kỹ thuật tiên tiến thúc đẩy giá trị trên nhiều ngành công nghiệp khác nhau bằng cách cho phép tự động hóa linh hoạt và thông minh:
Ví dụ sau đây minh họa cách áp dụng kỹ thuật nhanh chóng theo chương trình bằng cách sử dụng
ultralytics gói. Ở đây, chúng ta sử dụng một YOLO - Mô hình thế giới chấp nhận các lời nhắc bằng văn bản để xác định động các đối tượng cần tìm kiếm, trái ngược với các mô hình tiêu chuẩn như...
YOLO26 sử dụng danh sách lớp cố định.
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")
# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results - the model only detects objects matching the prompts
results[0].show()
Để triển khai hiệu quả các giải pháp AI thông qua Nền tảng Ultralytics , điều quan trọng là phải phân biệt kỹ thuật xử lý sự cố tức thời với các kỹ thuật tối ưu hóa tương tự: