Thuật ngữ

Hộp giới hạn

Tìm hiểu cách các hộp giới hạn cho phép phát hiện đối tượng, AI và hệ thống học máy. Khám phá vai trò của chúng trong các ứng dụng thị giác máy tính!

Hộp giới hạn là một khung hình chữ nhật được sử dụng trong thị giác máy tính (CV) để chỉ ra vị trí và phạm vi gần đúng của một đối tượng trong một khung hình ảnh hoặc video. Thường được xác định bằng tọa độ của góc trên cùng bên trái và góc dưới cùng bên phải (hoặc điểm trung tâm, chiều rộng và chiều cao), các hộp này cung cấp một phương pháp đơn giản nhưng hiệu quả để chỉ định vị trí của một đối tượng và chiếm bao nhiêu không gian. Hộp giới hạn là các thành phần cơ bản trong nhiều tác vụ CV khác nhau, bao gồm phát hiện đối tượng , theo dõi đối tượng và chú thích hình ảnh, tạo thành nền tảng của nhiều hệ thống Trí tuệ nhân tạo (AI) và học máy (ML) hiện đại. Chúng rất cần thiết để cho phép máy móc hiểu không chỉ những đối tượng nào hiện diện mà còn hiểu vị trí của chúng trong một cảnh trực quan.

Tầm quan trọng trong phát hiện đối tượng

Các hộp giới hạn rất quan trọng đối với cả việc đào tạo và đánh giá các mô hình phát hiện đối tượng . Trong các nhiệm vụ được giải quyết bởi các mô hình như Ultralytics YOLO , các hộp giới hạn đóng vai trò là "sự thật cơ bản" trong quá trình đào tạo . Điều này có nghĩa là chúng biểu thị vị trí và kích thước chính xác của các đối tượng trong dữ liệu đào tạo , dạy mô hình cách định vị chính xác các đối tượng. Quá trình này thường bắt đầu bằng chú thích dữ liệu cẩn thận, trong đó con người hoặc các công cụ tự động vẽ các hộp này xung quanh các đối tượng trong hình ảnh, thường sử dụng các nền tảng như CVAT hoặc tích hợp với các nền tảng như Ultralytics HUB để quản lý tập dữ liệu. Trong quá trình suy luận , mô hình được đào tạo dự đoán các hộp giới hạn xung quanh các đối tượng được phát hiện, cùng với nhãn lớp và điểm tin cậy . Khả năng định vị này rất quan trọng đối với các ứng dụng không chỉ yêu cầu nhận dạng đối tượng mà còn cả vị trí chính xác của chúng.

Các khái niệm chính liên quan đến hộp giới hạn

Một số số liệu và kỹ thuật có liên quan chặt chẽ đến việc sử dụng và đánh giá hộp giới hạn trong mô hình ML:

Giao điểm trên Union (IoU) : Một số liệu được sử dụng để đo sự chồng chéo giữa hộp giới hạn dự đoán và hộp giới hạn thực tế. Nó định lượng độ chính xác của bản địa hóa.
Loại bỏ không tối đa (NMS) : Một kỹ thuật xử lý hậu kỳ được sử dụng để loại bỏ các hộp giới hạn trùng lặp, dư thừa cho cùng một đối tượng, chỉ giữ lại dự đoán đáng tin cậy nhất.
Độ chính xác trung bình (mAP) : Một số liệu chuẩn để đánh giá hiệu suất của các mô hình phát hiện đối tượng, xem xét cả độ chính xác phân loại và độ chính xác định vị (thường dựa trên ngưỡng IoU). Xem số liệu hiệu suất YOLO chi tiết.
Hộp neo : Các hộp được xác định trước với nhiều kích thước và tỷ lệ khung hình khác nhau được sử dụng trong một số máy dò (như máy dò cũ hơn) YOLO phiên bản) để giúp dự đoán hộp giới hạn hiệu quả hơn. Các mô hình mới hơn, bao gồm YOLO11 , thường không có mỏ neo , giúp đơn giản hóa đầu phát hiện.
Bộ dữ liệu COCO : Bộ dữ liệu phát hiện, phân đoạn và chú thích đối tượng quy mô lớn được sử dụng rộng rãi để đánh giá chuẩn các mô hình phát hiện đối tượng. Ultralytics cung cấp khả năng truy cập dễ dàng vào COCO và các tập dữ liệu phát hiện khác.