Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Theo Dõi Đối Tượng

Tìm hiểu cách thức hoạt động của theo dõi đối tượng trong thị giác máy tính. Khám phá cách sử dụng Ultralytics YOLO26 được sử dụng để nhận dạng và giám sát các đối tượng có ID duy nhất nhằm phân tích theo thời gian thực.

Theo dõi đối tượng là một quá trình động trong thị giác máy tính (CV) liên quan đến việc xác định các thực thể cụ thể trong video và theo dõi chuyển động của chúng trên một chuỗi khung hình. Không giống như phân tích hình ảnh tĩnh, vốn xử lý từng ảnh chụp riêng lẻ, theo dõi đưa thêm chiều thời gian. Điều này cho phép các hệ thống trí tuệ nhân tạo (AI) gán một số nhận dạng duy nhất (ID) cho mỗi đối tượng được phát hiện—chẳng hạn như ô tô, người hoặc động vật—và duy trì danh tính đó khi đối tượng di chuyển, thay đổi hướng hoặc bị che khuất tạm thời. Khả năng này là nền tảng của việc hiểu video nâng cao, cho phép máy móc phân tích hành vi, tính toán quỹ đạo và rút ra những hiểu biết hữu ích từ dữ liệu thô.

Theo dõi đối tượng hoạt động như thế nào

Các hệ thống theo dõi hiện đại thường sử dụng mô hình "theo dõi bằng phát hiện". Quy trình này kết hợp các mô hình phát hiện mạnh mẽ với các thuật toán chuyên biệt để liên kết các phát hiện theo thời gian. Quá trình này thường trải qua ba giai đoạn chính:

  1. Phát hiện: Trong mỗi khung hình, một mô hình phát hiện đối tượng , chẳng hạn như YOLO26 hiện đại, sẽ quét hình ảnh để xác định vị trí các đối tượng cần quan tâm. Mô hình sẽ xuất ra các hộp giới hạn xác định phạm vi không gian của mỗi đối tượng.
  2. Dự đoán chuyển động: Các thuật toán như bộ lọc Kalman ước tính vị trí tương lai của một vật thể dựa trên vận tốc và quỹ đạo hiện tại của nó. Dự đoán này giúp thu hẹp không gian tìm kiếm cho khung hình tiếp theo, làm cho hệ thống hoạt động hiệu quả hơn.
  3. Liên kết dữ liệu: Hệ thống so khớp các phát hiện mới với các đường theo dõi hiện có bằng cách sử dụng các phương pháp tối ưu hóa như thuật toán Hungarian . Bước này thường dựa vào các chỉ số như Intersection over Union ( IoU ) để đo lường mức độ chồng lấp của một hộp dự đoán với một phát hiện mới. Các hệ thống theo dõi tiên tiến cũng có thể sử dụng trích xuất đặc điểm hình ảnh để nhận dạng lại các đối tượng trông tương tự nhau.

So sánh theo dõi đối tượng với phát hiện đối tượng

Mặc dù các thuật ngữ này có liên quan mật thiết với nhau, nhưng chúng phục vụ các chức năng riêng biệt trong quy trình học máy (ML) .

  • Nhận diện đối tượng trả lời câu hỏi, "Có gì trong hình ảnh này và ở đâu?" Nó hoạt động không lưu trữ trạng thái, nghĩa là không ghi nhớ các khung hình trước đó. Nếu một chiếc xe chạy qua video, bộ nhận diện sẽ thấy một "chiếc xe" trong khung hình 1 và một "chiếc xe" trong khung hình 2, nhưng không biết chúng có phải là cùng một chiếc xe hay không.
  • Tính năng Theo dõi Đối tượng trả lời câu hỏi, "Đối tượng cụ thể này đang di chuyển đến đâu?" Nó có tính chất lưu trạng thái. Nó kết nối "xe hơi" trong khung hình 1 với "xe hơi" trong khung hình 2, cho phép hệ thống ghi lại rằng "Xe có ID #42" đang di chuyển từ trái sang phải. Điều này rất cần thiết cho các tác vụ như mô hình dự đoán và đếm.

Các Ứng dụng Thực tế

Khả năng duy trì định danh đối tượng cho phép thực hiện các ứng dụng suy luận thời gian thực phức tạp trong nhiều ngành công nghiệp khác nhau.

  • Hệ thống giao thông thông minh: Theo dõi là yếu tố sống còn giúp xe tự lái di chuyển an toàn. Bằng cách theo dõi người đi bộ và các phương tiện khác, ô tô có thể dự đoán các vụ va chạm tiềm tàng. Hơn nữa, các kỹ sư giao thông sử dụng các hệ thống này để ước tính tốc độ nhằm thực thi các quy định an toàn và tối ưu hóa luồng giao thông.
  • Phân tích bán lẻ: Các cửa hàng truyền thống sử dụng trí tuệ nhân tạo (AI) trong bán lẻ để hiểu hành vi khách hàng. Việc theo dõi cho phép người quản lý cửa hàng thực hiện đếm số lượng sản phẩm để đo lưu lượng người đi lại, phân tích thời gian khách hàng dừng lại trước các quầy trưng bày bằng bản đồ nhiệt và tối ưu hóa việc quản lý hàng đợi để giảm thời gian chờ đợi.
  • Phân tích thể thao: Trong thể thao chuyên nghiệp, các huấn luyện viên sử dụng công nghệ theo dõi kết hợp với ước tính tư thế để phân tích cơ sinh học của cầu thủ và đội hình thi đấu. Dữ liệu này mang lại lợi thế cạnh tranh bằng cách tiết lộ những mô hình mà mắt thường không thể nhìn thấy.

Triển khai theo dõi với Python

Ultralytics Giúp đơn giản hóa việc triển khai theo dõi hiệu suất cao. track Chế độ trong thư viện tự động xử lý việc phát hiện, dự đoán chuyển động và gán ID. Ví dụ dưới đây cho thấy cách sử dụng chế độ này. Ultralytics Nền tảng Tương thích với mẫu YOLO26 track các đối tượng trong video.

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file or webcam (source=0)
# 'show=True' displays the video with bounding boxes and unique IDs
results = model.track(source="https://ultralytics.com/images/bus.jpg", show=True)

# Access the unique tracking IDs from the results
if results[0].boxes.id is not None:
    print(f"Detected Track IDs: {results[0].boxes.id.cpu().numpy()}")

Các Khái Niệm Liên Quan

Để hiểu đầy đủ về hệ sinh thái theo dõi đối tượng, việc tìm hiểu về phân đoạn đối tượng ( instance segmentation ) rất hữu ích, phương pháp này theo dõi chính xác các đường viền ở cấp độ pixel của một đối tượng thay vì chỉ là một hình hộp. Ngoài ra, các cuộc thi Theo dõi Đa Đối tượng (Multi-Object Tracking - MOT) thường sử dụng các bộ dữ liệu chuẩn phổ biến như MOTChallenge để đánh giá khả năng xử lý các cảnh đông đúc và vật cản của thuật toán. Để triển khai trong môi trường sản xuất, các nhà phát triển thường sử dụng các công cụ như NVIDIA DeepStream hoặc OpenCV để tích hợp các mô hình này vào các quy trình hiệu quả.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay