Tìm hiểu Giao điểm trên hợp (IoU) là gì, cách tính toán và vai trò quan trọng của nó trong phát hiện đối tượng và đánh giá mô hình AI.
Giao điểm trên hợp (IoU) là một số liệu cơ bản được sử dụng rộng rãi trong thị giác máy tính (CV) , đặc biệt là đối với các tác vụ như phát hiện đối tượng và phân đoạn hình ảnh . Nó định lượng mức độ chính xác của ranh giới dự đoán (như hộp giới hạn trong phát hiện đối tượng) khớp với ranh giới thực tế, ranh giới thực tế của một đối tượng. Về cơ bản, IoU đo mức độ chồng lấn giữa khu vực dự đoán và khu vực thực, cung cấp điểm số đơn giản nhưng hiệu quả cho hiệu suất định vị. Hiểu IoU là điều cần thiết để đánh giá và so sánh hiệu quả của các mô hình thị giác máy tính, đặc biệt là đối với người dùng quen thuộc với các khái niệm học máy (ML) cơ bản.
IoU đóng vai trò là chỉ báo hiệu suất quan trọng khi đánh giá mức độ các mô hình, chẳng hạn như Ultralytics YOLO , định vị các đối tượng trong một hình ảnh. Trong khi phân loại cho chúng ta biết đối tượng nào hiện diện (xem Phân loại hình ảnh ), IoU cho chúng ta biết mô hình xác định vị trí của nó tốt như thế nào . Độ chính xác về mặt không gian này rất quan trọng trong nhiều tình huống thực tế, trong đó định vị chính xác cũng quan trọng như phân loại chính xác. Điểm IoU cao cho thấy các dự đoán của mô hình phù hợp chặt chẽ với ranh giới đối tượng thực tế. Nhiều chuẩn phát hiện đối tượng, như đánh giá tập dữ liệu COCO phổ biến và thử thách PASCAL VOC cũ hơn, dựa rất nhiều vào ngưỡng IoU để xác định xem phát hiện có được coi là chính xác hay không. Bạn có thể khám phá nhiều tập dữ liệu chuẩn khác nhau như COCO và PASCAL VOC trong tài liệu của chúng tôi.
Phép tính bao gồm việc chia diện tích mà hộp giới hạn dự đoán và hộp giới hạn thực tế chồng lên nhau (giao điểm) cho tổng diện tích được bao phủ bởi cả hai hộp kết hợp (hợp). Tỷ lệ này cho kết quả điểm từ 0 đến 1. Điểm 1 biểu thị sự khớp hoàn hảo, nghĩa là hộp dự đoán chồng lên chính xác hộp giới hạn thực tế. Điểm 0 biểu thị không có sự chồng chéo nào cả. Một thông lệ phổ biến trong nhiều giao thức đánh giá phát hiện đối tượng là coi một dự đoán là đúng nếu điểm IoU đạt hoặc vượt quá một ngưỡng nhất định, thường là 0,5. Tuy nhiên, các ngưỡng nghiêm ngặt hơn (ví dụ: 0,75 hoặc thậm chí 0,9) có thể được sử dụng tùy thuộc vào nhu cầu về độ chính xác của ứng dụng, như được thấy trong các số liệu như mAP@.5:.95 được sử dụng trong các đánh giá COCO. Ngưỡng này tác động trực tiếp đến các số liệu như độ chính xác và khả năng thu hồi .
Khả năng đo độ chính xác định vị của IoU khiến nó trở nên không thể thiếu trong nhiều lĩnh vực khác nhau:
Trong khi IoU đo lường cụ thể chất lượng bản địa hóa cho một dự đoán duy nhất so với thực tế, thì nó thường được sử dụng cùng với các số liệu khác để có được bức tranh hiệu suất hoàn chỉnh.
IoU không chỉ là một số liệu đánh giá; nó còn là một phần không thể thiếu của quá trình đào tạo. Nhiều kiến trúc phát hiện đối tượng hiện đại, bao gồm các biến thể của Ultralytics YOLOv8 và YOLOv10 , sử dụng IoU hoặc các biến thể của nó (như IoU tổng quát (GIoU), IoU khoảng cách (DIoU) hoặc IoU hoàn chỉnh (CIoU)) trực tiếp trong các hàm mất mát của chúng. Các mất mát dựa trên IoU nâng cao này giúp mô hình học cách dự đoán các hộp giới hạn không chỉ chồng chéo tốt mà còn xem xét các yếu tố như khoảng cách giữa các tâm và tính nhất quán của tỷ lệ khung hình, dẫn đến sự hội tụ nhanh hơn và hiệu suất định vị tốt hơn so với các mất mát hồi quy truyền thống. Bạn có thể tìm thấy các so sánh chi tiết giữa các mô hình YOLO khác nhau trong tài liệu của chúng tôi.
Việc theo dõi IoU trong quá trình đào tạo mô hình và điều chỉnh siêu tham số giúp các nhà phát triển tinh chỉnh các mô hình để bản địa hóa tốt hơn. Các công cụ như Ultralytics HUB cho phép theo dõi IoU và các số liệu khác, hợp lý hóa chu kỳ cải tiến mô hình. Mặc dù có tiện ích rộng rãi, IoU tiêu chuẩn đôi khi có thể không nhạy, đặc biệt là đối với các hộp không chồng lấn hoặc các hộp có tỷ lệ rất khác nhau. Điều này đã thúc đẩy sự phát triển của các biến thể IoU đã đề cập ở trên. Tuy nhiên, IoU vẫn là nền tảng của đánh giá thị giác máy tính và là một khái niệm chính trong học sâu (DL) .