Tìm hiểu cách cửa sổ ngữ cảnh định nghĩa bộ nhớ của mô hình trong trí tuệ nhân tạo. Khám phá các ứng dụng trong xử lý ngôn ngữ tự nhiên (NLP) và theo dõi video với Ultralytics Sử dụng YOLO26 để tăng độ chính xác.
Cửa sổ ngữ cảnh đề cập đến phạm vi tối đa của dữ liệu đầu vào—chẳng hạn như ký tự văn bản, đoạn âm thanh hoặc khung hình video—mà một mô hình học máy có thể xử lý và xem xét đồng thời trong quá trình hoạt động. Trong lĩnh vực trí tuệ nhân tạo (AI) , khái niệm này tương tự như bộ nhớ ngắn hạn, xác định lượng thông tin mà hệ thống có thể "nhìn thấy" hoặc nhớ lại tại bất kỳ thời điểm nào. Đối với các mô hình xử lý ngôn ngữ tự nhiên (NLP) như Transformer , cửa sổ được đo bằng token, xác định độ dài của lịch sử hội thoại mà AI có thể duy trì. Trong thị giác máy tính (CV) , ngữ cảnh thường mang tính thời gian hoặc không gian, cho phép mô hình hiểu được chuyển động và tính liên tục trong một chuỗi hình ảnh.
Tính hữu dụng thực tiễn của cửa sổ ngữ cảnh vượt xa chức năng đệm dữ liệu đơn thuần, đóng vai trò then chốt trong nhiều lĩnh vực nâng cao khác:
Để triển khai chính xác các giải pháp AI, việc phân biệt cửa sổ ngữ cảnh với các thuật ngữ tương tự trong bảng thuật ngữ là rất hữu ích:
Mặc dù thường được thảo luận trong văn bản, bối cảnh là yếu tố quan trọng đối với các nhiệm vụ liên quan đến thị giác, nơi mà lịch sử đóng vai trò then chốt. Sau đây là những điều cần lưu ý.
Python đoạn mã này sử dụng ultralytics Gói phần mềm này được sử dụng để thực hiện theo dõi đối tượng. Tại đây, mô hình duy trì "ngữ cảnh" về danh tính đối tượng xuyên suốt các khung hình video để đảm bảo rằng một chiếc xe được phát hiện trong khung hình 1 được nhận dạng là cùng một chiếc xe trong khung hình 10.
from ultralytics import YOLO
# Load the YOLO26n model (latest generation)
model = YOLO("yolo26n.pt")
# Perform object tracking on a video file
# The tracker uses temporal context to preserve object IDs across frames
results = model.track(source="path/to/video.mp4", show=True)
Quản lý cửa sổ ngữ cảnh liên quan đến sự đánh đổi liên tục giữa hiệu năng và tài nguyên. Cửa sổ quá ngắn có thể dẫn đến "mất trí nhớ mô hình", trong đó AI bị mất thông tin. track của câu chuyện hoặc quỹ đạo đối tượng. Tuy nhiên, các cửa sổ quá lớn làm tăng độ trễ suy luận và mức tiêu thụ bộ nhớ, khiến việc suy luận thời gian thực trở nên khó khăn trên các thiết bị AI biên .
Để giảm thiểu điều này, các nhà phát triển sử dụng các chiến lược như Retrieval-Augmented Generation (RAG) , cho phép mô hình lấy thông tin liên quan từ cơ sở dữ liệu vector bên ngoài thay vì lưu trữ mọi thứ trong cửa sổ ngữ cảnh trực tiếp của nó. Ngoài ra, các công cụ như Ultralytics Platform giúp các nhóm quản lý tập dữ liệu lớn và giám sát hiệu suất triển khai để tối ưu hóa cách các mô hình xử lý ngữ cảnh trong môi trường sản xuất. Các framework như PyTorch tiếp tục phát triển, cung cấp hỗ trợ tốt hơn cho các cơ chế chú ý thưa thớt cho phép sử dụng các cửa sổ ngữ cảnh khổng lồ với chi phí tính toán tuyến tính thay vì bậc hai. Những đổi mới trong kiến trúc mô hình, chẳng hạn như những đổi mới trong quá trình chuyển đổi sang khả năng đầu cuối của YOLO26, tiếp tục tinh chỉnh cách xử lý ngữ cảnh trực quan để đạt hiệu quả tối đa.