Thuật ngữ

Mạng lưới Capsule (CapsNet)

Khám phá Capsule Networks (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội về phân cấp không gian và mối quan hệ tính năng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Capsule Networks, thường được gọi là CapsNets, đại diện cho một loại kiến trúc mạng nơ-ron mới được thiết kế để giải quyết một số hạn chế của Convolutional Neural Networks (CNNs) truyền thống, đặc biệt là trong việc xử lý các hệ thống phân cấp không gian và mối quan hệ giữa các đặc điểm trong hình ảnh. Không giống như CNNs, sử dụng đầu ra vô hướng từ các hoạt động gộp, CapsNets sử dụng các vectơ để biểu diễn các đặc điểm, cho phép chúng nắm bắt thông tin chi tiết hơn về hướng và vị trí không gian tương đối của các đối tượng. Khả năng này làm cho CapsNets đặc biệt hiệu quả trong các nhiệm vụ như nhận dạng hình ảnh, trong đó việc hiểu được tư thế và mối quan hệ không gian của các đối tượng là rất quan trọng.

Các khái niệm cốt lõi

CapsNets giới thiệu khái niệm "capsule", là nhóm neuron có vector hoạt động biểu diễn nhiều thuộc tính khác nhau của một loại thực thể cụ thể, chẳng hạn như một đối tượng hoặc một phần của đối tượng. Độ dài của vector hoạt động biểu diễn xác suất thực thể tồn tại, trong khi hướng của nó mã hóa các tham số khởi tạo (ví dụ: vị trí, kích thước, hướng). Capsule hoạt động ở một cấp độ đưa ra dự đoán, thông qua ma trận chuyển đổi, cho các tham số khởi tạo của capsule cấp cao hơn. Khi nhiều dự đoán đồng ý, một capsule cấp cao hơn sẽ trở nên hoạt động. Quá trình này được gọi là "định tuyến theo thỏa thuận".

Sự khác biệt chính so với Mạng nơ-ron tích chập (CNN)

Mặc dù cả CapsNet và Mạng nơ-ron tích chập (CNN) đều được sử dụng trong các tác vụ thị giác máy tính (CV) , nhưng chúng có sự khác biệt đáng kể về cách tiếp cận để xử lý thông tin không gian:

  • Biểu diễn tính năng : CNN sử dụng các giá trị vô hướng để biểu diễn các tính năng, trong khi CapsNet sử dụng các vectơ, cho phép chúng nắm bắt thông tin chi tiết hơn về tư thế và tính chất của các đối tượng.
  • Hoạt động gộp nhóm : CNN thường sử dụng max-pooling, có thể dẫn đến mất thông tin không gian chính xác. CapsNet tránh điều này bằng cách sử dụng định tuyến động, giúp bảo toàn hệ thống phân cấp không gian.
  • Equivariance : CapsNet được thiết kế để tương đương với những thay đổi về góc nhìn, nghĩa là chúng có thể nhận dạng các vật thể ngay cả khi hướng của chúng thay đổi. CNN không phải là tương đương về bản chất và yêu cầu các kỹ thuật như tăng cường dữ liệu để đạt được kết quả tương tự.

Ưu điểm của mạng Capsule

CapsNets có một số ưu điểm so với CNN truyền thống:

  • Cải thiện khả năng xử lý phân cấp không gian : Bằng cách biểu diễn các đặc điểm dưới dạng vectơ, CapsNets có thể hiểu rõ hơn mối quan hệ không gian giữa các phần của một đối tượng.
  • Độ tin cậy cao hơn đối với các phép biến đổi Affine : CapsNet có thể nhận dạng các đối tượng dưới nhiều phép biến đổi khác nhau (ví dụ: xoay, thay đổi tỷ lệ) mà không cần phải tăng cường dữ liệu nhiều.
  • Khả năng khái quát hóa tốt hơn với ít dữ liệu hơn : Do khả năng nắm bắt thông tin tính năng chi tiết, CapsNet thường có thể đạt được hiệu suất tốt với ít ví dụ đào tạo hơn so với CNN.

Ứng dụng trong thế giới thực

Mạng con nhộng đã cho thấy triển vọng trong nhiều ứng dụng khác nhau, chứng minh tiềm năng của chúng trong việc thúc đẩy lĩnh vực học sâu (DL) :

  • Chụp ảnh y khoa : Trong phân tích hình ảnh y khoa , CapsNet có thể cải thiện độ chính xác của chẩn đoán bệnh bằng cách hiểu rõ hơn mối quan hệ không gian giữa các cấu trúc giải phẫu khác nhau. Ví dụ, chúng có thể được sử dụng để phát hiện và phân loại khối u chính xác hơn bằng cách phân tích hình dạng, kích thước và vị trí tương đối của chúng trong một cơ quan.
  • Xe tự hành : CapsNets có thể tăng cường hệ thống nhận thức của xe tự hành bằng cách cải thiện khả năng phát hiện và nhận dạng đối tượng , đặc biệt là trong những điều kiện khó khăn như góc nhìn và vật cản khác nhau. Điều này có thể dẫn đến việc điều hướng an toàn và đáng tin cậy hơn.
  • Nhận dạng khuôn mặt : Trong các hệ thống nhận dạng khuôn mặt , CapsNets có thể cung cấp hiệu suất mạnh mẽ hơn bằng cách nắm bắt chính xác mối quan hệ không gian giữa các đặc điểm khuôn mặt, ngay cả khi thay đổi tư thế và biểu cảm.

Thách thức và định hướng tương lai

Mặc dù có nhiều ưu điểm, CapsNet cũng phải đối mặt với những thách thức, chẳng hạn như độ phức tạp tính toán cao hơn so với CNN và nhu cầu nghiên cứu sâu hơn để tối ưu hóa kiến trúc và quy trình đào tạo của chúng. Nghiên cứu đang diễn ra tập trung vào việc cải thiện hiệu quả định tuyến động, khám phá các loại viên nang mới và áp dụng CapsNet vào nhiều nhiệm vụ hơn ngoài nhận dạng hình ảnh.

Khi lĩnh vực trí tuệ nhân tạo (AI) tiếp tục phát triển, Capsule Networks đại diện cho một lĩnh vực phát triển thú vị, cung cấp những khả năng mới để tạo ra các mô hình mạng nơ-ron mạnh mẽ và linh hoạt hơn. Khả năng nắm bắt thông tin không gian chi tiết và xử lý các phép biến đổi của chúng khiến chúng trở thành một công cụ có giá trị để thúc đẩy thị giác máy tính và các ứng dụng AI khác. Đối với những người quan tâm đến việc khám phá các mô hình AI tiên tiến, Ultralytics YOLO Các mô hình cung cấp kiến trúc phát hiện đối tượng tiên tiến kết hợp một số tiến bộ mới nhất trong lĩnh vực này. Ngoài ra, Ultralytics HUB cung cấp nền tảng để đào tạo và triển khai các mô hình này, tạo điều kiện thuận lợi hơn nữa cho việc phát triển và ứng dụng các giải pháp AI tiên tiến.

Đọc tất cả