Tìm hiểu cách các máy phát hiện vật thể hai giai đoạn đạt được độ chính xác cao trong phát hiện vật thể với đề xuất vùng, phân loại và tinh chỉnh hộp giới hạn.
Bộ dò vật thể hai giai đoạn là một loại mô hình phát hiện vật thể trong thị giác máy tính thực hiện quy trình phát hiện theo hai bước riêng biệt. Ban đầu, các mô hình này tạo ra một tập hợp các đề xuất vùng, là các khu vực tiềm năng trong hình ảnh nơi có thể có vật thể. Sau đó, chúng phân loại từng vùng được đề xuất và tinh chỉnh tọa độ hộp giới hạn của nó để xác định và định vị chính xác các vật thể. Phương pháp tiếp cận hai bước này cho phép có độ chính xác cao hơn trong các tác vụ phát hiện vật thể, đặc biệt là trong các tình huống phức tạp khi các vật thể có thể thay đổi về tỷ lệ, hướng và hình dạng.
Hoạt động của máy dò vật thể hai giai đoạn có thể được chia thành hai giai đoạn chính: đề xuất vùng và phân loại vùng.
Đề xuất vùng : Ở giai đoạn đầu tiên, mô hình xác định các vị trí đối tượng tiềm năng trong một hình ảnh. Điều này thường được thực hiện bằng các thuật toán như Tìm kiếm có chọn lọc hoặc gần đây hơn là Mạng đề xuất vùng (RPN). RPN là một loại mạng nơ-ron quét hình ảnh để xác định các khu vực có khả năng chứa đối tượng, tạo ra các hộp giới hạn xung quanh các khu vực này.
Phân loại vùng : Giai đoạn thứ hai bao gồm việc phân loại các đối tượng trong các vùng được đề xuất và điều chỉnh các hộp giới hạn để phù hợp chính xác hơn. Mỗi vùng được đề xuất được truyền qua mạng nơ-ron tích chập (CNN) để trích xuất các đặc điểm, sau đó được sử dụng để phân loại đối tượng và tinh chỉnh tọa độ hộp giới hạn. Giai đoạn này đảm bảo rằng mỗi đối tượng được phát hiện đều được gắn nhãn chính xác và định vị trong hình ảnh.
Một số thành phần và kỹ thuật chính là không thể thiếu trong hoạt động của máy dò vật thể hai giai đoạn:
Mạng đề xuất vùng (RPN) : RPN rất quan trọng để tạo ra các đề xuất vùng chất lượng cao một cách hiệu quả. Chúng hoạt động bằng cách trượt một mạng nhỏ qua đầu ra bản đồ đặc điểm của CNN, dự đoán khả năng một đối tượng có mặt tại mỗi vị trí và đề xuất điều chỉnh hộp giới hạn.
Trích xuất tính năng : Trích xuất tính năng liên quan đến việc sử dụng CNN, chẳng hạn như ResNet hoặc VGG, để trích xuất các tính năng có ý nghĩa từ các vùng được đề xuất. Các tính năng này rất cần thiết cho các nhiệm vụ phân loại và hồi quy hộp giới hạn tiếp theo.
Hồi quy hộp giới hạn : Sau khi phân loại đối tượng trong vùng đề xuất, hồi quy hộp giới hạn được sử dụng để tinh chỉnh tọa độ hộp giới hạn, đảm bảo phù hợp chặt chẽ với đối tượng được phát hiện.
Máy dò vật thể hai giai đoạn thường được so sánh với máy dò vật thể một giai đoạn , chẳng hạn như Ultralytics YOLO (Bạn chỉ nhìn một lần). Trong khi các máy dò một giai đoạn thực hiện phát hiện đối tượng chỉ trong một lần đi qua mạng, giúp chúng nhanh hơn và phù hợp hơn với các ứng dụng thời gian thực, thì các máy dò hai giai đoạn thường có độ chính xác cao hơn do quy trình hai bước của chúng.
Độ chính xác : Máy dò hai giai đoạn thường đạt được độ chính xác cao hơn vì giai đoạn thứ hai cho phép phân tích chi tiết và tinh chỉnh từng vùng được đề xuất. Điều này đặc biệt có lợi trong các tình huống có các đối tượng chồng chéo hoặc nền phức tạp.
Tốc độ : Các máy dò một giai đoạn như Ultralytics YOLO nhanh hơn vì chúng xử lý toàn bộ hình ảnh trong một lần chuyển tiếp duy nhất. Các máy dò hai giai đoạn, mặc dù chính xác hơn, nhưng chậm hơn do có thêm bước xử lý riêng từng đề xuất vùng.
Máy dò vật thể hai giai đoạn được sử dụng trong nhiều ứng dụng thực tế đòi hỏi độ chính xác cao:
Xe tự hành : Trong xe tự lái , việc phát hiện chính xác người đi bộ, xe cộ và các vật thể khác là rất quan trọng để điều hướng an toàn. Máy dò hai giai đoạn giúp đảm bảo rằng tất cả các mối nguy hiểm tiềm ẩn đều được xác định và định vị chính xác. Tìm hiểu thêm về việc sử dụng AI trong công nghệ tự lái .
Chụp ảnh y tế : Trong chăm sóc sức khỏe , máy dò hai giai đoạn được sử dụng để phân tích hình ảnh y tế, chẳng hạn như chụp X-quang và chụp MRI, để phát hiện các bất thường như khối u hoặc gãy xương. Độ chính xác cao của các máy dò này rất quan trọng đối với chẩn đoán và lập kế hoạch điều trị đáng tin cậy. Khám phá thêm về AI và X quang .
Một số mô hình có ảnh hưởng đã được phát triển dựa trên khuôn khổ phát hiện hai giai đoạn:
R-CNN (Các vùng có tính năng CNN) : Là một trong những mô hình tiên phong trong danh mục này, R-CNN sử dụng Tìm kiếm có chọn lọc để tạo đề xuất vùng và CNN để phân loại từng vùng.
Fast R-CNN : Một cải tiến so với R-CNN, Fast R-CNN xử lý toàn bộ hình ảnh thông qua CNN một lần và sau đó trích xuất các đặc điểm cho từng đề xuất vùng, giúp tăng tốc đáng kể quá trình này.
R-CNN nhanh hơn : Mô hình này giới thiệu Mạng đề xuất khu vực (RPN), tích hợp việc tạo đề xuất khu vực với mạng phát hiện, giúp cải thiện cả tốc độ và độ chính xác.
Để biết thêm chi tiết về các kiến trúc phát hiện đối tượng cụ thể, bạn có thể tham khảo các nguồn như trang Wikipedia về phát hiện đối tượng .