Khám phá Non-Maximum Suppression (NMS) để phát hiện đối tượng. Tìm hiểu cách nó tinh chỉnh kết quả, tăng cường độ chính xác và hỗ trợ các ứng dụng AI như YOLO .
Non-Maximum Suppression (NMS) là một kỹ thuật xử lý hậu kỳ quan trọng được sử dụng rộng rãi trong thị giác máy tính (CV) , đặc biệt là trong các đường ống phát hiện đối tượng . Vai trò chính của nó là tinh chỉnh đầu ra thô được tạo ra bởi các mô hình phát hiện, thường xác định nhiều hộp giới hạn chồng chéo cho cùng một trường hợp đối tượng. Bằng cách lọc thông minh các hộp dư thừa này, NMS đảm bảo rằng mỗi đối tượng riêng biệt trong một khung hình ảnh hoặc video được biểu diễn bằng một hộp giới hạn tối ưu duy nhất. Điều này cải thiện đáng kể độ rõ nét và độ chính xác của kết quả phát hiện cuối cùng, khiến chúng hữu ích hơn cho các tác vụ tiếp theo.
Các mô hình phát hiện đối tượng, chẳng hạn như các phiên bản YOLO Ultralytics , thường quét một hình ảnh và đề xuất nhiều hộp giới hạn tiềm năng xung quanh các đối tượng được phát hiện. Mỗi hộp được đề xuất đi kèm với một điểm tin cậy , biểu thị mức độ chắc chắn của mô hình rằng hộp chứa một đối tượng và thuộc về một lớp cụ thể. NMS hoạt động bằng cách giảm một cách có hệ thống các đề xuất này dựa trên điểm tin cậy và sự chồng chéo không gian của chúng.
Quá trình này thường diễn ra theo các bước sau:
Điều này đảm bảo rằng chỉ còn lại các hộp chắc chắn nhất, không chồng chéo, mang lại đầu ra rõ ràng hơn và dễ hiểu hơn, như được hình dung trong nhiều hướng dẫn về thị giác máy tính .
Trong các lĩnh vực rộng hơn của Trí tuệ nhân tạo (AI) và Học máy (ML) , NMS là nền tảng để đạt được hiệu suất phát hiện đối tượng đáng tin cậy. Nếu không có NMS, đầu ra của một máy dò như YOLO11 sẽ lộn xộn với nhiều hộp cho các đối tượng đơn lẻ. Sự dư thừa này có thể dẫn đến lỗi trong các ứng dụng hạ nguồn, chẳng hạn như đếm đối tượng ( hướng dẫn đếm đối tượng ), theo dõi đối tượng hoặc hiểu cảnh phức tạp trong robot .
Bằng cách loại bỏ các phát hiện dư thừa này (thường góp phần gây ra kết quả dương tính giả ), NMS tăng cường đáng kể độ chính xác của các dự đoán của mô hình. Sự tinh chỉnh này rất quan trọng đối với các ứng dụng đòi hỏi độ tin cậy và độ chính xác cao. Tác động của NMS được phản ánh trong các số liệu đánh giá như Độ chính xác trung bình trung bình (mAP) , thường được tính toán sau khi áp dụng NMS, như được nêu chi tiết trong hướng dẫn về Số liệu hiệu suất YOLO .
NMS là công nghệ nền tảng cho phép nhiều ứng dụng AI thực tế:
NMS cụ thể là một bước xử lý hậu kỳ được áp dụng sau khi mô hình phát hiện đối tượng đã tạo ra tập hợp ban đầu các hộp giới hạn ứng viên. Không nên nhầm lẫn nó với chính kiến trúc phát hiện, chẳng hạn như sự khác biệt giữa các bộ dò dựa trên neo và các bộ dò không có neo . Các kiến trúc này xác định cách các hộp tiềm năng được đề xuất, trong khi NMS tinh chỉnh các đề xuất này.
Điều thú vị là chi phí tính toán và các nút thắt tiềm ẩn liên quan đến NMS đã thúc đẩy nghiên cứu về các bộ phát hiện đối tượng không cần NMS. Các mô hình như YOLOv10 tích hợp các cơ chế trong quá trình đào tạo (như các phép gán kép nhất quán) để tránh dự đoán các hộp trùng lặp, nhằm mục đích giảm độ trễ suy luận và cho phép phát hiện thực sự từ đầu đến cuối ( phương pháp không cần NMS của YOLOv10 ). Điều này trái ngược với các phương pháp truyền thống như Ultralytics YOLOv8 hoặc YOLOv5 , trong đó NMS vẫn là một phần tiêu chuẩn và thiết yếu của quy trình suy luận . Bạn có thể khám phá các so sánh kỹ thuật, chẳng hạn như YOLOv10 so với YOLOv8 , trong tài liệu của chúng tôi. Các biến thể như Soft-NMS ( bài báo về Soft-NMS ) cung cấp các phương pháp thay thế làm giảm điểm số của các hộp chồng chéo thay vì loại bỏ chúng hoàn toàn.
NMS được tích hợp liền mạch trong Ultralytics hệ sinh thái. Ultralytics YOLO các mô hình tự động áp dụng NMS trong dự đoán (predict
) và xác thực (val
) chế độ, đảm bảo người dùng nhận được đầu ra phát hiện sạch và chính xác theo mặc định. Các tham số kiểm soát hành vi NMS (như ngưỡng IoU và ngưỡng tin cậy) thường có thể được điều chỉnh cho các nhu cầu ứng dụng cụ thể.
Các nền tảng như Ultralytics HUB trừu tượng hóa thêm các chi tiết này, cho phép người dùng đào tạo các mô hình ( hướng dẫn đào tạo đám mây ) và triển khai chúng ở nơi NMS được xử lý tự động như một phần của đường ống được tối ưu hóa. Sự tích hợp này đảm bảo rằng người dùng, bất kể trình độ chuyên môn kỹ thuật sâu rộng của họ về MLOps , có thể hưởng lợi từ kết quả phát hiện đối tượng tiên tiến cho nhiều tác vụ thị giác máy tính khác nhau. Các chi tiết triển khai cụ thể trong Ultralytics có thể khám phá khuôn khổ trong tài liệu tham khảo tiện ích Ultralytics . Để biết thêm định nghĩa, hãy xem Thuật ngữ chính Ultralytics .