Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng Capsule (CapsNet)

Khám phá Mạng Capsule (CapsNets) và cách chúng giải quyết những hạn chế của Mạng CNN. Tìm hiểu về định tuyến động, hệ thống phân cấp không gian và so sánh CapsNets với YOLO26.

Mạng nơ-ron dạng viên nang (Capsule Networks), thường được viết tắt là CapsNets, đại diện cho một kiến ​​trúc tiên tiến trong lĩnh vực học sâu, được thiết kế để khắc phục những hạn chế cụ thể của mạng nơ-ron truyền thống. Được giới thiệu bởi Geoffrey Hinton và nhóm của ông, CapsNets cố gắng mô phỏng cấu trúc thần kinh sinh học của não người một cách chính xác hơn so với các mô hình tiêu chuẩn. Không giống như mạng nơ-ron tích chập (CNN) điển hình, vốn xuất sắc trong việc phát hiện các đặc điểm nhưng thường làm mất các mối quan hệ không gian do giảm kích thước, mạng nơ-ron dạng viên nang tổ chức các nơ-ron thành các nhóm gọi là "viên nang". Những viên nang này mã hóa không chỉ xác suất hiện diện của một đối tượng, mà còn cả các thuộc tính cụ thể của nó, chẳng hạn như hướng, kích thước và kết cấu, giúp bảo toàn hiệu quả các mối quan hệ không gian phân cấp trong dữ liệu hình ảnh.

Hạn chế của mạng CNN truyền thống

Để hiểu được sự đổi mới của CapsNets, việc xem xét cách thức hoạt động của các mô hình thị giác máy tính tiêu chuẩn là rất hữu ích. Một mạng CNN thông thường sử dụng các lớp trích xuất đặc trưng , ​​tiếp theo là các lớp gộp – cụ thể là gộp tối đa – để giảm tải tính toán và đạt được tính bất biến tịnh tiến. Điều này có nghĩa là mạng CNN có thể nhận dạng một "con mèo" bất kể vị trí của nó trong hình ảnh.

Tuy nhiên, quá trình này thường loại bỏ dữ liệu vị trí chính xác, dẫn đến "vấn đề Picasso": một mạng CNN có thể... classify CapsNets nhận diện khuôn mặt một cách chính xác ngay cả khi miệng nằm trên trán, đơn giản vì tất cả các đặc điểm cần thiết đều hiện diện. CapsNets giải quyết vấn đề này bằng cách loại bỏ các lớp gộp (pooling layers) và thay thế chúng bằng một quy trình tôn trọng thứ bậc không gian của các đối tượng.

Cách thức hoạt động của mạng Capsule

Khối cấu trúc cốt lõi của kiến ​​trúc này là capsule, một tập hợp các nơ-ron lồng nhau tạo ra đầu ra là một vectơ chứ không phải là một giá trị vô hướng. Trong toán học vectơ , một vectơ có cả độ lớn và hướng. Trong CapsNet:

  • Độ lớn (Chiều dài): Biểu thị xác suất tồn tại của một thực thể cụ thể trong dữ liệu đầu vào hiện tại.
  • Hướng (Định hướng): Mã hóa các tham số khởi tạo, chẳng hạn như ước lượng tư thế , tỷ lệ và xoay của đối tượng.

Các capsule ở lớp thấp hơn (phát hiện các hình dạng đơn giản như cạnh) dự đoán đầu ra của các capsule ở lớp cao hơn (phát hiện các đối tượng phức tạp như mắt hoặc lốp xe). Quá trình giao tiếp này được quản lý bởi một thuật toán gọi là "định tuyến động" hoặc "định tuyến theo thỏa thuận". Nếu dự đoán của một capsule ở lớp thấp hơn phù hợp với trạng thái của capsule ở lớp cao hơn, kết nối giữa chúng sẽ được tăng cường. Điều này cho phép mạng nhận dạng các đối tượng từ các góc nhìn 3D khác nhau mà không cần đến việc tăng cường dữ liệu khổng lồ thường cần thiết để dạy mạng CNN về xoay và tỷ lệ.

Những điểm khác biệt chính: Mạng nơ-ron tích chập (CNN) so với mạng nơ-ron truyền thống (CNN)

Mặc dù cả hai kiến trúc đều là nền tảng của thị giác máy tính (CV) , nhưng chúng khác nhau về cách xử lý và biểu diễn dữ liệu hình ảnh:

  • Giá trị vô hướng so với giá trị vectơ: Các nơron CNN sử dụng đầu ra vô hướng để biểu thị sự hiện diện của đặc điểm. CapsNet sử dụng vectơ để mã hóa sự hiện diện (chiều dài) và các tham số tư thế (hướng).
  • Định tuyến so với Gộp mẫu: Mạng CNN sử dụng gộp mẫu để giảm kích thước dữ liệu, thường làm mất thông tin vị trí. Mạng CapsNet sử dụng định tuyến động để bảo toàn dữ liệu không gian, giúp chúng rất hiệu quả cho các tác vụ yêu cầu theo dõi đối tượng chính xác.
  • Hiệu quả dữ liệu: Vì các capsule hiểu ngầm định các góc nhìn 3D và các phép biến đổi affine , chúng thường có thể khái quát hóa từ ít dữ liệu huấn luyện hơn so với mạng CNN, vốn có thể cần rất nhiều ví dụ để học mọi góc xoay có thể có của một đối tượng.

Các Ứng dụng Thực tế

Mặc dù CapsNet thường tốn nhiều tài nguyên tính toán hơn so với các mô hình được tối ưu hóa như YOLO26 , nhưng chúng lại mang đến những lợi thế riêng biệt trong các lĩnh vực chuyên biệt:

  1. Phân tích hình ảnh y tế: Trong lĩnh vực chăm sóc sức khỏe, định hướng và hình dạng chính xác của một dị thường là vô cùng quan trọng. Các nhà nghiên cứu đã áp dụng mạng nơ-ron capsule (CapsNet) vào việc phân đoạn khối u não , trong đó mô hình phải phân biệt khối u với các mô xung quanh dựa trên các cấu trúc không gian tinh tế mà các mạng nơ-ron tích chập (CNN) tiêu chuẩn có thể bỏ qua. Bạn có thể tìm hiểu thêm các nghiên cứu liên quan về mạng nơ-ron capsule trong hình ảnh y tế .
  2. Nhận dạng chữ số chồng chéo: CapsNets đạt được kết quả vượt trội trên tập dữ liệu MNIST , đặc biệt là trong các trường hợp chữ số chồng chéo. Bởi vì mạng theo dõi "vị trí" của từng chữ số, nó có thể phân tách hai số chồng chéo (ví dụ: số '3' nằm trên số '5') thành các đối tượng riêng biệt thay vì hợp nhất chúng thành một bản đồ đặc trưng duy nhất gây nhầm lẫn.

Bối cảnh thực tiễn và triển khai

Mạng Capsule (CapsNet) chủ yếu là một kiến trúc phân loại. Mặc dù về mặt lý thuyết chúng có độ bền vững cao, nhưng các ứng dụng công nghiệp hiện đại thường ưu tiên các mạng CNN tốc độ cao hoặc Transformer để đạt hiệu suất thời gian thực tốt hơn. Tuy nhiên, việc hiểu rõ các tiêu chuẩn phân loại được sử dụng cho CapsNet, chẳng hạn như... MNIST Nó rất hữu ích.

Ví dụ sau đây minh họa cách huấn luyện một hệ thống hiện đại. YOLO mô hình phân loại trên MNIST tập dữ liệu sử dụng ultralytics gói này tương tự như nhiệm vụ đánh giá chuẩn chính được sử dụng để xác thực Mạng Capsule.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Tương lai của viên nang và trí tuệ nhân tạo thị giác

Các nguyên tắc đằng sau Mạng Capsule tiếp tục ảnh hưởng đến nghiên cứu về an toàn và khả năng giải thích của AI . Bằng cách mô hình hóa rõ ràng các mối quan hệ giữa bộ phận và toàn thể, các capsule cung cấp một giải pháp "hộp kính" thay thế cho bản chất "hộp đen" của mạng nơ-ron sâu, giúp các quyết định dễ giải thích hơn. Các phát triển trong tương lai hướng đến việc kết hợp tính mạnh mẽ về không gian của capsule với tốc độ suy luận của các kiến trúc như YOLO11 hoặc YOLO26 mới hơn để cải thiện hiệu suất trong phát hiện vật thể 3D và robot. Các nhà nghiên cứu cũng đang khám phá Matrix Capsules với EM Routing để giảm hơn nữa chi phí tính toán của thuật toán đồng thuận.

Đối với các nhà phát triển muốn quản lý tập dữ liệu và huấn luyện mô hình một cách hiệu quả, Nền tảng Ultralytics cung cấp một môi trường thống nhất để chú thích dữ liệu, huấn luyện trên đám mây và triển khai các mô hình cân bằng giữa tốc độ của mạng nơ-ron tích chập (CNN) với độ chính xác cần thiết cho các tác vụ thị giác phức tạp.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay