Thuật ngữ

Máy dò vật thể hai giai đoạn

Khám phá sức mạnh của máy dò vật thể hai giai đoạn—giải pháp tập trung vào độ chính xác để phát hiện vật thể chính xác trong các tác vụ thị giác máy tính phức tạp.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Bộ dò vật thể hai giai đoạn đại diện cho một loại kiến trúc phát hiện vật thể trong thị giác máy tính (CV) ưu tiên độ chính xác bằng cách chia quá trình phát hiện thành hai giai đoạn riêng biệt. Các bộ dò này được thiết kế để đầu tiên xác định các vùng quan tâm (RoI) trong một hình ảnh nơi có thể có vật thể, sau đó, ở giai đoạn thứ hai, phân loại các vật thể trong các vùng được đề xuất này và tinh chỉnh vị trí của chúng (hộp giới hạn). Phương pháp tiếp cận có phương pháp này cho phép phân tích chi tiết hơn từng vật thể tiềm năng, thường dẫn đến độ chính xác phát hiện cao hơn, đặc biệt là trong các tình huống phức tạp hoặc khi phát hiện các vật thể nhỏ.

Máy dò hai giai đoạn hoạt động như thế nào

Hoạt động của các máy dò hai giai đoạn bao gồm một quá trình tuần tự, tận dụng các kỹ thuật học sâu, đặc biệt là Mạng nơ-ron tích chập (CNN) .

  1. Giai đoạn 1: Đề xuất vùng: Giai đoạn đầu tiên thường sử dụng Mạng đề xuất vùng (RPN), một khái niệm được phổ biến bởi mô hình Faster R-CNN . RPN quét các đặc điểm hình ảnh (được trích xuất bởi CNN xương sống như ResNet ) và đề xuất một tập hợp các vùng ứng viên có khả năng chứa các đối tượng. Các đề xuất này về cơ bản là các hộp giới hạn thô xung quanh các đối tượng tiềm năng.
  2. Giai đoạn 2: Phân loại và tinh chỉnh: Các vùng được đề xuất (RoI) sau đó được chuyển sang giai đoạn thứ hai. Đối với mỗi RoI, các tính năng được trích xuất (thường sử dụng các kỹ thuật như RoIPool hoặc RoIAlign) và mạng nơ-ron (NN) thực hiện hai nhiệm vụ: phân loại đối tượng trong RoI (ví dụ: 'xe hơi', 'người', 'nền') và tinh chỉnh tọa độ của hộp giới hạn để phù hợp chính xác hơn với đối tượng. Các ví dụ nổi bật bao gồm họ R-CNN ( R-CNN là gì?, Fast R-CNN, Faster R-CNN) và Mask R-CNN, mở rộng cách tiếp cận này để thực hiện phân đoạn thể hiện .

Ưu điểm và nhược điểm

Máy dò hai giai đoạn mang lại những lợi ích rõ rệt nhưng cũng đi kèm với những đánh đổi:

Thuận lợi:

  • Độ chính xác cao: Việc tách biệt quá trình tạo đề xuất và phân loại/tinh chỉnh cho phép xử lý tập trung hơn, thường mang lại độ chính xác cao hơn, đặc biệt được đo bằng các số liệu như Độ chính xác trung bình (mAP) .
  • Bản địa hóa tốt hơn: Giai đoạn tinh chỉnh thường dẫn đến dự đoán hộp giới hạn chính xác hơn.
  • Hiệu quả đối với các vật thể nhỏ: Chúng có thể hoạt động tốt hơn các máy dò một tầng trong việc xác định các vật thể nhỏ hơn trong hình ảnh nhờ có tầng thứ hai được hội tụ.

Nhược điểm:

  • Tốc độ chậm hơn: Quy trình hai giai đoạn tuần tự vốn đòi hỏi nhiều thời gian tính toán hơn, dẫn đến độ trễ suy luận thấp hơn so với các phương pháp một giai đoạn. Điều này làm cho chúng ít phù hợp hơn với các ứng dụng yêu cầu suy luận thời gian thực .
  • Độ phức tạp: Kiến trúc thường phức tạp hơn khi triển khai và đào tạo.
  • Chi phí tính toán cao hơn: Chúng thường yêu cầu nhiều tài nguyên tính toán hơn (như GPU ) cho cả quá trình đào tạo và suy luận.

So sánh với máy dò một giai đoạn

Sự khác biệt chính nằm ở kiến trúc và cách tiếp cận. Các máy dò vật thể một giai đoạn , chẳng hạn như dòng Ultralytics YOLO (ví dụ: YOLOv8 , YOLO11 ) và SSD, thực hiện định vị và phân loại vật thể đồng thời trong một lần chạy qua mạng. Điều này làm cho chúng nhanh hơn đáng kể. Sự lựa chọn giữa máy dò một giai đoạn và hai giai đoạn thường liên quan đến sự đánh đổi: ưu tiên tốc độ (một giai đoạn) hoặc độ chính xác tối đa (hai giai đoạn). Trong khi máy dò một giai đoạn đã thu hẹp đáng kể khoảng cách về độ chính xác, máy dò hai giai đoạn thường duy trì lợi thế trong các tình huống đòi hỏi độ chính xác cao nhất.

Ứng dụng trong thế giới thực

Độ chính xác cao của máy dò hai giai đoạn làm cho chúng trở nên có giá trị trong các ứng dụng đòi hỏi độ chính xác tối quan trọng:

  • Phân tích hình ảnh y tế: Phát hiện các bất thường tinh vi như khối u nhỏ hoặc tổn thương trong quét CT hoặc MRI, nơi độ chính xác cao là rất quan trọng để chẩn đoán. Các mô hình như Mask R-CNN đã được điều chỉnh cho các nhiệm vụ như vậy trong AI trong chăm sóc sức khỏe (xem ví dụ: Mask R-CNN trong hình ảnh y tế ).
  • Lái xe tự động: Cho phép các hệ thống nhận thức chi tiết trong xe tự hành phát hiện và phân loại chính xác nhiều đối tượng khác nhau như người đi bộ, phương tiện và biển báo giao thông, ngay cả trong môi trường lộn xộn hoặc đầy thách thức, góp phần vào sự an toàn tổng thể trong AI trong ô tô .
  • Hình ảnh vệ tinh có độ phân giải cao: Phân tích hình ảnh vệ tinh chi tiết để nhận dạng đối tượng chính xác, chẳng hạn như theo dõi các loại phương tiện cụ thể hoặc những thay đổi về cơ sở hạ tầng trong phân tích hình ảnh vệ tinh .
  • Kiểm soát chất lượng trong sản xuất: Kiểm tra sản phẩm để tìm ra các lỗi nhỏ đòi hỏi độ chính xác định vị cao trong AI trong sản xuất . Các khuôn khổ như Detectron2 của Meta AI cung cấp các triển khai của các mô hình hai giai đoạn phổ biến.
Đọc tất cả