Tìm hiểu cách thức hoạt động của theo dõi đối tượng trong thị giác máy tính. Khám phá cách sử dụng Ultralytics YOLO26 được sử dụng để nhận dạng và giám sát các đối tượng có ID duy nhất nhằm phân tích theo thời gian thực.
Theo dõi đối tượng là một quá trình động trong thị giác máy tính (CV) liên quan đến việc xác định các thực thể cụ thể trong video và theo dõi chuyển động của chúng trên một chuỗi khung hình. Không giống như phân tích hình ảnh tĩnh, vốn xử lý từng ảnh chụp riêng lẻ, theo dõi đưa thêm chiều thời gian. Điều này cho phép các hệ thống trí tuệ nhân tạo (AI) gán một số nhận dạng duy nhất (ID) cho mỗi đối tượng được phát hiện—chẳng hạn như ô tô, người hoặc động vật—và duy trì danh tính đó khi đối tượng di chuyển, thay đổi hướng hoặc bị che khuất tạm thời. Khả năng này là nền tảng của việc hiểu video nâng cao, cho phép máy móc phân tích hành vi, tính toán quỹ đạo và rút ra những hiểu biết hữu ích từ dữ liệu thô.
Các hệ thống theo dõi hiện đại thường sử dụng mô hình "theo dõi bằng phát hiện". Quy trình này kết hợp các mô hình phát hiện mạnh mẽ với các thuật toán chuyên biệt để liên kết các phát hiện theo thời gian. Quá trình này thường trải qua ba giai đoạn chính:
Mặc dù các thuật ngữ này có liên quan mật thiết với nhau, nhưng chúng phục vụ các chức năng riêng biệt trong quy trình học máy (ML) .
Khả năng duy trì định danh đối tượng cho phép thực hiện các ứng dụng suy luận thời gian thực phức tạp trong nhiều ngành công nghiệp khác nhau.
Ultralytics Giúp đơn giản hóa việc triển khai theo dõi hiệu suất cao. track Chế độ trong thư viện tự động xử lý việc phát hiện, dự đoán chuyển động và gán ID. Ví dụ dưới đây cho thấy cách sử dụng chế độ này.
Ultralytics Nền tảng Tương thích với mẫu YOLO26 track các đối tượng trong video.
from ultralytics import YOLO
# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Track objects in a video file or webcam (source=0)
# 'show=True' displays the video with bounding boxes and unique IDs
results = model.track(source="https://ultralytics.com/images/bus.jpg", show=True)
# Access the unique tracking IDs from the results
if results[0].boxes.id is not None:
print(f"Detected Track IDs: {results[0].boxes.id.cpu().numpy()}")
Để hiểu đầy đủ về hệ sinh thái theo dõi đối tượng, việc tìm hiểu về phân đoạn đối tượng ( instance segmentation ) rất hữu ích, phương pháp này theo dõi chính xác các đường viền ở cấp độ pixel của một đối tượng thay vì chỉ là một hình hộp. Ngoài ra, các cuộc thi Theo dõi Đa Đối tượng (Multi-Object Tracking - MOT) thường sử dụng các bộ dữ liệu chuẩn phổ biến như MOTChallenge để đánh giá khả năng xử lý các cảnh đông đúc và vật cản của thuật toán. Để triển khai trong môi trường sản xuất, các nhà phát triển thường sử dụng các công cụ như NVIDIA DeepStream hoặc OpenCV để tích hợp các mô hình này vào các quy trình hiệu quả.