Các máy dò vật thể hai giai đoạn đại diện cho một lớp kiến trúc phát hiện vật thể được biết đến với độ chính xác cao, đặc biệt là trong các cảnh phức tạp. Không giống như các đối tác của chúng, các máy dò này chia nhỏ nhiệm vụ phát hiện vật thể thành hai bước riêng biệt: đầu tiên là xác định các vùng tiềm năng trong hình ảnh có thể chứa vật thể (đề xuất vùng) và thứ hai là phân loại các vật thể trong các vùng được đề xuất đó và tinh chỉnh vị trí của chúng bằng cách sử dụng các hộp giới hạn . Phương pháp tiếp cận có phương pháp này cho phép phân tích chi tiết nhưng thường phải trả giá bằng tốc độ tính toán so với các phương pháp thay thế. Các mô hình này là nền tảng trong quá trình phát triển của thị giác máy tính (CV) .
Máy dò hai giai đoạn hoạt động như thế nào
Hoạt động của bộ phát hiện hai giai đoạn liên quan đến một đường ống tuần tự, thường sử dụng mạng nơ-ron sâu (NN) , cụ thể là Mạng nơ-ron tích chập (CNN) , để trích xuất tính năng .
- Giai đoạn 1: Đề xuất vùng: Giai đoạn đầu tiên nhằm mục đích tạo ra một tập hợp các vùng ứng viên có thể quản lý được (Vùng quan tâm hoặc RoI) nơi các đối tượng có khả năng được định vị. Các mô hình ban đầu như R-CNN sử dụng các phương pháp bên ngoài như Tìm kiếm có chọn lọc, trong khi các tiến bộ sau này, đáng chú ý là kiến trúc Faster R-CNN , tích hợp bước này vào chính mạng nơ-ron bằng cách sử dụng Mạng đề xuất vùng (RPN). RPN quét hiệu quả các bản đồ đặc điểm do mạng xương sống tạo ra và dự đoán các vị trí và kích thước đối tượng tiềm năng.
- Giai đoạn 2: Phân loại và tinh chỉnh: Các vùng được đề xuất từ giai đoạn đầu tiên sau đó được chuyển sang giai đoạn thứ hai. Đối với mỗi RoI, các đặc điểm được trích xuất từ bản đồ đặc điểm được chia sẻ (sử dụng các kỹ thuật như RoIPooling hoặc RoIAlign để xử lý các kích thước vùng khác nhau). Các đặc điểm này đưa vào đầu phát hiện thực hiện hai nhiệm vụ: phân loại đối tượng trong RoI (ví dụ: 'xe hơi', 'người', 'nền') và tinh chỉnh tọa độ của hộp giới hạn để phù hợp chính xác hơn với đối tượng.
Đặc điểm chính
Máy dò hai giai đoạn chủ yếu được đặc trưng bởi:
- Độ chính xác cao: Việc tách biệt quá trình tạo đề xuất và phân loại/tinh chỉnh cho phép giai đoạn thứ hai tập trung nguồn lực vào một tập hợp nhỏ hơn các vùng hứa hẹn, thường dẫn đến độ chính xác định vị và phân loại cao hơn. Chúng có xu hướng hoạt động tốt trên các đối tượng nhỏ và trong các cảnh đông đúc. Hiệu suất thường được đo bằng các số liệu như Độ chính xác trung bình (mAP) và Giao điểm trên Liên hợp (IoU) .
- Tốc độ suy luận chậm hơn: Xử lý hình ảnh trong hai giai đoạn riêng biệt, đặc biệt là với chi phí tạo và xử lý riêng lẻ nhiều đề xuất vùng, khiến các máy dò này tốn nhiều tính toán hơn và thường chậm hơn so với máy dò vật thể một giai đoạn . Điều này có thể hạn chế việc sử dụng chúng trong các ứng dụng yêu cầu suy luận thời gian thực nghiêm ngặt.
So sánh với máy dò một giai đoạn
Sự khác biệt chính nằm ở đường ống hoạt động. Các máy dò một giai đoạn , chẳng hạn như họ Ultralytics YOLO (bao gồm các mô hình như YOLO11 và YOLOv8 ) và SSD (Single Shot MultiBox Detector) , trực tiếp dự đoán các hộp giới hạn và xác suất lớp từ toàn bộ hình ảnh trong một lần chuyển tiếp qua mạng. Chúng xử lý phát hiện đối tượng như một vấn đề hồi quy. Phương pháp thống nhất này mang lại những lợi thế đáng kể về tốc độ, khiến chúng phù hợp với các ứng dụng thời gian thực. Tuy nhiên, về mặt lịch sử, chúng phải đối mặt với những thách thức khi so sánh độ chính xác của các máy dò hai giai đoạn, đặc biệt là đối với các đối tượng nhỏ, mặc dù khoảng cách này đã thu hẹp đáng kể với những tiến bộ hiện đại. Bạn có thể khám phá các so sánh giữa các mô hình phát hiện đối tượng khác nhau để biết thêm chi tiết.
Kiến trúc đáng chú ý
Sự phát triển của máy dò hai giai đoạn bao gồm một số mô hình có ảnh hưởng:
- R-CNN (Các vùng có tính năng CNN): Công trình tiên phong kết hợp các đề xuất vùng với tính năng CNN nhưng chậm do xử lý từng vùng một cách độc lập.
- Fast R-CNN: Cải thiện tốc độ bằng cách chia sẻ tính toán giữa các đề xuất sử dụng RoIPooling trên bản đồ tính năng tích chập được chia sẻ. ( Bài báo Fast R-CNN )
- R-CNN nhanh hơn: Tăng tốc độ và tính thanh lịch hơn nữa bằng cách tích hợp bước đề xuất khu vực vào mạng thông qua RPN, tạo ra một hệ thống có thể đào tạo gần như toàn diện.
- Mask R-CNN: Mở rộng Faster R-CNN để thực hiện phân đoạn trường hợp bằng cách thêm một nhánh để dự đoán mặt nạ phân đoạn cho mỗi đối tượng được phát hiện. ( Bài báo Mask R-CNN )
Ứng dụng trong thế giới thực
Độ chính xác cao của máy dò hai giai đoạn làm cho chúng trở nên có giá trị trong các tình huống mà độ chính xác là tối quan trọng:
- Phân tích hình ảnh y tế: Phát hiện các bất thường nhỏ như khối u nhỏ, tổn thương hoặc polyp trong các lần quét y tế (CT, MRI) đòi hỏi độ chính xác cao để hỗ trợ chẩn đoán. Định vị chính xác là rất quan trọng đối với việc lập kế hoạch điều trị. Xem thêm về AI trong chăm sóc sức khỏe và nghiên cứu trên các tạp chí như Radiology: Artificial Intelligence . Bạn có thể khám phá các tập dữ liệu như tập dữ liệu Brain Tumor để biết các tác vụ liên quan.
- Lái xe tự động: Phát hiện và định vị chính xác người đi bộ, người đi xe đạp, các phương tiện khác và biển báo giao thông, đặc biệt là những biển báo nhỏ hoặc bị che khuất một phần, là rất quan trọng đối với hệ thống an toàn của xe tự lái . Các công ty như Waymo phụ thuộc rất nhiều vào các hệ thống nhận thức mạnh mẽ.
- Hiểu biết chi tiết về bối cảnh: Các ứng dụng yêu cầu hiểu biết sâu sắc về tương tác đối tượng hoặc đếm chính xác sẽ được hưởng lợi từ độ chính xác cao hơn.
- Kiểm soát chất lượng trong sản xuất: Xác định các lỗi nhỏ hoặc xác minh vị trí lắp ráp linh kiện trong các cụm phức tạp thường đòi hỏi độ chính xác cao. Tìm hiểu thêm về AI trong sản xuất .
Việc đào tạo các mô hình này thường liên quan đến các tập dữ liệu có nhãn lớn, chẳng hạn như tập dữ liệu COCO và việc điều chỉnh cẩn thận. Ultralytics cung cấp các nguồn lực để đào tạo mô hình và hiểu các số liệu hiệu suất . Trong khi Ultralytics tập trung vào các mô hình một giai đoạn hiệu quả như Ultralytics YOLO , việc hiểu biết về máy dò hai giai đoạn cung cấp bối cảnh có giá trị trong lĩnh vực phát hiện vật thể rộng hơn.