Mask R-CNN là gì và nó hoạt động như thế nào?

Tìm hiểu cách Mask R-CNN có thể được sử dụng để phân đoạn chính xác các đối tượng trong hình ảnh và video cho nhiều ứng dụng khác nhau trên nhiều lĩnh vực khác nhau.

Viết bởi

Abirami Vina

phút đọc

Ngày 21 tháng 3 năm 2025

Ngày 13 tháng 4 năm 2025

Tổng quan về Mask R-CNN

Một cái nhìn về kiến trúc của Mask R-CNN và cách thức hoạt động của nó

Bắt đầu với việc trích xuất tính năng

Gợi ý các khu vực tiềm năng trong hình ảnh với các đối tượng

Nâng cao các tính năng được trích xuất

Phân loại các đối tượng và dự đoán mặt nạ của chúng

Mask R-CNN và các ứng dụng thời gian thực của nó

Hạn chế của Mask R-CNN

Từ Mask R-CNN đến Ultralytics YOLO11

Những điểm chính

Những cải tiến như robot trong nhà kho, xe tự lái di chuyển an toàn qua những con phố đông đúc, máy bay không người lái kiểm tra mùa màng và hệ thống AI kiểm tra sản phẩm trong nhà máy đang trở nên phổ biến hơn khi việc áp dụng AI ngày càng tăng. Một công nghệ chính thúc đẩy những cải tiến này là thị giác máy tính , một nhánh của AI cho phép máy móc hiểu và diễn giải dữ liệu trực quan.

Ví dụ, phát hiện đối tượng là một tác vụ thị giác máy tính giúp xác định và định vị các đối tượng trong hình ảnh bằng cách sử dụng hộp giới hạn. Mặc dù hộp giới hạn cung cấp thông tin hữu ích, nhưng chúng chỉ cung cấp ước tính sơ bộ về vị trí của đối tượng và không thể nắm bắt hình dạng hoặc ranh giới chính xác của đối tượng. Điều này làm cho chúng kém hiệu quả hơn trong các ứng dụng yêu cầu nhận dạng chính xác.

Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển các mô hình phân đoạn có thể nắm bắt chính xác đường viền của vật thể, cung cấp thông tin chi tiết ở cấp độ pixel để phát hiện và phân tích chính xác hơn.

Mask R-CNN là một trong những mô hình này. Được giới thiệu vào năm 2017 bởi Facebook AI Research (FAIR), nó xây dựng trên các mô hình trước đó như R-CNN , Fast R-CNN và Faster R-CNN. Là một cột mốc quan trọng trong lịch sử thị giác máy tính, Mask R-CNN đã mở đường cho các mô hình tiên tiến hơn, chẳng hạn như Ultralytics YOLO11 .

Trong bài viết này, chúng ta sẽ khám phá Mask R-CNN là gì, nó hoạt động như thế nào, các ứng dụng của nó và những cải tiến nào đã có sau đó, dẫn đến YOLO11 .

Tổng quan về Mask R-CNN

Mask R-CNN, viết tắt của Mask Region-based Convolutional Neural Network, là một mô hình học sâu được thiết kế cho các tác vụ thị giác máy tính như phát hiện đối tượng và phân đoạn thể hiện.

Phân đoạn thể hiện vượt xa khả năng phát hiện đối tượng truyền thống bằng cách không chỉ xác định các đối tượng trong hình ảnh mà còn phác thảo chính xác từng đối tượng. Nó gán một nhãn duy nhất cho mọi đối tượng được phát hiện và nắm bắt hình dạng chính xác của đối tượng đó ở cấp độ pixel. Phương pháp chi tiết này giúp phân biệt rõ ràng giữa các đối tượng chồng chéo và xử lý chính xác các hình dạng phức tạp.

Mask R-CNN được xây dựng dựa trên Faster R-CNN, phát hiện và gắn nhãn các đối tượng nhưng không xác định hình dạng chính xác của chúng. Mask R-CNN cải thiện điều này bằng cách xác định các pixel chính xác tạo nên từng đối tượng, cho phép phân tích hình ảnh chi tiết và chính xác hơn nhiều.

__wf_reserved_thừa kế — Hình 1. So sánh phát hiện đối tượng và phân đoạn thể hiện.

‍

Một cái nhìn về kiến trúc của Mask R-CNN và cách thức hoạt động của nó

Mask R-CNN áp dụng phương pháp từng bước để phát hiện và phân đoạn chính xác các đối tượng. Nó bắt đầu bằng cách trích xuất các đặc điểm chính bằng mạng nơ-ron sâu (một mô hình nhiều lớp học từ dữ liệu), sau đó xác định các vùng đối tượng tiềm năng bằng mạng đề xuất vùng (một thành phần gợi ý các vùng đối tượng có khả năng xảy ra) và cuối cùng tinh chỉnh các vùng này bằng cách tạo mặt nạ phân đoạn chi tiết (phác thảo chính xác các đối tượng) nắm bắt hình dạng chính xác của từng đối tượng.

Tiếp theo, chúng ta sẽ thực hiện từng bước để hiểu rõ hơn về cách thức hoạt động của Mask R-CNN.

‍

Bắt đầu với việc trích xuất tính năng

Bước đầu tiên trong kiến trúc của Mask R-CNN là chia nhỏ hình ảnh thành các phần chính để mô hình có thể hiểu được nội dung bên trong. Hãy nghĩ về điều này giống như khi bạn nhìn vào một bức ảnh và tự nhiên nhận thấy các chi tiết như hình dạng, màu sắc và các cạnh. Mô hình thực hiện một điều tương tự bằng cách sử dụng mạng nơ-ron sâu được gọi là "xương sống" (thường là ResNet-50 hoặc ResNet-101), hoạt động như đôi mắt của nó để quét hình ảnh và thu thập các chi tiết chính.

Vì các đối tượng trong hình ảnh có thể rất nhỏ hoặc rất lớn, Mask R-CNN sử dụng Feature Pyramid Network. Điều này giống như có nhiều kính lúp khác nhau cho phép mô hình nhìn thấy cả các chi tiết nhỏ và bức tranh lớn hơn, đảm bảo rằng các đối tượng ở mọi kích thước đều được chú ý.

Sau khi trích xuất được những đặc điểm quan trọng này, mô hình sẽ tiếp tục xác định vị trí các đối tượng tiềm năng trong hình ảnh, thiết lập giai đoạn cho các phân tích sâu hơn.

Gợi ý các khu vực tiềm năng trong hình ảnh với các đối tượng

Sau khi hình ảnh được xử lý cho các tính năng chính, Mạng đề xuất khu vực sẽ tiếp quản. Phần này của mô hình sẽ xem xét hình ảnh và đề xuất các khu vực có khả năng chứa các đối tượng.

Nó thực hiện điều này bằng cách tạo ra nhiều vị trí đối tượng có thể được gọi là neo . Sau đó, mạng sẽ đánh giá các neo này và chọn ra những neo hứa hẹn nhất để phân tích thêm. Theo cách này, mô hình chỉ tập trung vào các khu vực có khả năng thú vị nhất, thay vì kiểm tra từng điểm trong hình ảnh.

‍

Nâng cao các tính năng được trích xuất

Với các khu vực chính được xác định, bước tiếp theo là tinh chỉnh các chi tiết được trích xuất từ các vùng này. Các mô hình trước đó sử dụng phương pháp gọi là ROI Pooling (Region of Interest Pooling) để lấy các đặc điểm từ mỗi vùng, nhưng kỹ thuật này đôi khi dẫn đến sự sai lệch nhỏ khi thay đổi kích thước vùng, khiến nó kém hiệu quả hơn - đặc biệt là đối với các đối tượng nhỏ hơn hoặc chồng chéo.

Mask R-CNN cải thiện điều này bằng cách sử dụng một kỹ thuật được gọi là ROI Align (Region of Interest Align). Thay vì làm tròn tọa độ như ROI Pooling, ROI Align sử dụng nội suy song tuyến tính để ước tính giá trị pixel chính xác hơn. Nội suy song tuyến tính là một phương pháp tính toán giá trị pixel mới bằng cách lấy trung bình các giá trị của bốn điểm lân cận gần nhất, tạo ra các chuyển tiếp mượt mà hơn. Điều này giúp các đặc điểm được căn chỉnh chính xác với hình ảnh gốc, dẫn đến phát hiện và phân đoạn đối tượng chính xác hơn.

Ví dụ, trong một trận bóng đá, hai cầu thủ đứng gần nhau có thể bị nhầm lẫn với nhau vì hộp giới hạn của họ chồng lên nhau. ROI Align giúp tách chúng ra bằng cách giữ cho hình dạng của chúng khác biệt.

‍

Phân loại các đối tượng và dự đoán mặt nạ của chúng

Sau khi ROI Align xử lý hình ảnh, bước tiếp theo là phân loại các đối tượng và tinh chỉnh vị trí của chúng. Mô hình sẽ xem xét từng vùng được trích xuất và quyết định vùng đó chứa đối tượng nào. Nó gán điểm xác suất cho các danh mục khác nhau và chọn ra kết quả phù hợp nhất.

Đồng thời, nó điều chỉnh các hộp giới hạn để phù hợp hơn với các đối tượng. Các hộp ban đầu có thể không được đặt lý tưởng, do đó, điều này giúp cải thiện độ chính xác bằng cách đảm bảo mỗi hộp bao quanh chặt chẽ đối tượng được phát hiện.

Cuối cùng, Mask R-CNN thực hiện thêm một bước: tạo ra mặt nạ phân đoạn chi tiết cho từng đối tượng song song.

Mask R-CNN và các ứng dụng thời gian thực của nó

Khi mô hình này ra mắt, nó đã nhận được rất nhiều sự phấn khích từ cộng đồng AI và sớm được sử dụng trong nhiều ứng dụng khác nhau. Khả năng phát hiện và phân đoạn các đối tượng theo thời gian thực đã biến nó thành một bước ngoặt trong nhiều ngành công nghiệp khác nhau.

Ví dụ, theo dõi các loài động vật có nguy cơ tuyệt chủng trong tự nhiên là một nhiệm vụ đầy thách thức. Nhiều loài di chuyển qua các khu rừng rậm rạp, khiến các nhà bảo tồn khó có thể theo dõi chúng. Các phương pháp truyền thống sử dụng bẫy ảnh, máy bay không người lái và hình ảnh vệ tinh, nhưng việc phân loại tất cả dữ liệu này bằng tay rất tốn thời gian. Nhận dạng sai và bỏ lỡ các lần nhìn thấy có thể làm chậm các nỗ lực bảo tồn.

Bằng cách nhận dạng các đặc điểm độc đáo như sọc hổ, đốm hươu cao cổ hoặc hình dạng tai voi, Mask R-CNN có thể phát hiện và phân đoạn động vật trong hình ảnh và video với độ chính xác cao hơn. Ngay cả khi động vật bị cây che khuất một phần hoặc đứng gần nhau, mô hình vẫn có thể tách chúng ra và nhận dạng từng con riêng lẻ, giúp việc theo dõi động vật hoang dã nhanh hơn và đáng tin cậy hơn.

‍

Hạn chế của Mask R-CNN

Mặc dù có ý nghĩa lịch sử trong việc phát hiện và phân đoạn đối tượng, Mask R-CNN cũng có một số nhược điểm chính. Sau đây là một số thách thức liên quan đến Mask R-CNN:

Nhu cầu tính toán cao : Dựa vào GPU mạnh, có thể tốn kém khi chạy và chậm khi xử lý lượng dữ liệu lớn.
Tốc độ xử lý chậm hơn : Quá trình nhiều giai đoạn của nó làm cho nó chậm hơn so với các mô hình thời gian thực nhanh hơn như YOLO , điều này có thể không lý tưởng cho các nhiệm vụ cấp bách.
Phụ thuộc vào dữ liệu chất lượng cao : Mô hình hoạt động tốt nhất với hình ảnh rõ ràng, được gắn nhãn tốt. Hình ảnh mờ hoặc thiếu sáng có thể làm giảm đáng kể độ chính xác của mô hình.
‍
Triển khai phức tạp : Kiến trúc nhiều giai đoạn có thể khó thiết lập và tối ưu hóa, đặc biệt là khi xử lý các tập dữ liệu lớn hoặc tài nguyên hạn chế.

Từ Mask R-CNN đến Ultralytics YOLO11

Mask R-CNN rất tuyệt vời cho các tác vụ phân đoạn, nhưng nhiều ngành công nghiệp đang tìm cách áp dụng thị giác máy tính trong khi ưu tiên tốc độ và hiệu suất thời gian thực. Yêu cầu này khiến các nhà nghiên cứu phát triển các mô hình một giai đoạn phát hiện các đối tượng trong một lần, cải thiện đáng kể hiệu quả.

Không giống như quy trình nhiều bước của Mask R-CNN, các mô hình thị giác máy tính một giai đoạn như YOLO (Bạn chỉ nhìn một lần) tập trung vào các tác vụ thị giác máy tính thời gian thực. Thay vì xử lý phát hiện và phân đoạn riêng biệt, YOLO Các mô hình có thể phân tích hình ảnh chỉ trong một lần. Điều này làm cho nó trở nên lý tưởng cho các ứng dụng như lái xe tự động, chăm sóc sức khỏe, sản xuất và robot, nơi mà việc ra quyết định nhanh chóng là rất quan trọng.

Đặc biệt, YOLO11 đưa điều này tiến xa hơn một bước nữa bằng cách vừa nhanh vừa chính xác. Nó sử dụng ít hơn 22% tham số so với YOLOv8m nhưng vẫn đạt được độ chính xác trung bình cao hơn (mAP) trên tập dữ liệu COCO, nghĩa là nó phát hiện các đối tượng chính xác hơn. Tốc độ xử lý được cải thiện của nó khiến nó trở thành lựa chọn tốt cho các ứng dụng thời gian thực, nơi mà từng mili giây đều quan trọng.

‍

Những điểm chính

Nhìn lại lịch sử của thị giác máy tính, Mask R-CNN được công nhận là một bước đột phá lớn trong phát hiện và phân đoạn đối tượng. Nó mang lại kết quả rất chính xác ngay cả trong các cài đặt phức tạp, nhờ vào quy trình nhiều bước chi tiết của nó.

Tuy nhiên, quá trình này cũng làm cho nó chậm hơn so với các mô hình thời gian thực như YOLO . Khi nhu cầu về tốc độ và hiệu quả ngày càng tăng, nhiều ứng dụng hiện nay sử dụng các mô hình một giai đoạn như Ultralytics YOLO11 , cung cấp khả năng phát hiện đối tượng nhanh và chính xác. Trong khi Mask R-CNN quan trọng đối với việc hiểu được sự phát triển của thị giác máy tính, xu hướng hướng tới các giải pháp thời gian thực làm nổi bật nhu cầu ngày càng tăng đối với các giải pháp thị giác máy tính nhanh hơn và hiệu quả hơn.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Sẵn sàng bắt đầu các dự án thị giác máy tính của riêng bạn? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá AI trong nông nghiệp và Vision AI trong chăm sóc sức khỏe bằng cách truy cập các trang giải pháp của chúng tôi!

Mask R-CNN là gì và nó hoạt động như thế nào?

Tổng quan về Mask R-CNN