흔히 캡스넷이라고도 하는 캡슐 네트워크는 특히 이미지의 공간 계층 구조와 특징 간의 관계를 처리할 때 기존 CNN(컨볼루션 신경망)의 일부 한계를 해결하기 위해 고안된 새로운 유형의 신경망 아키텍처입니다. 풀링 연산에서 스칼라 출력을 사용하는 CNN과 달리, 캡스넷은 벡터를 사용하여 특징을 표현하므로 물체의 방향과 상대적 공간 위치에 대한 보다 자세한 정보를 캡처할 수 있습니다. 이러한 기능 덕분에 캡스넷은 물체의 자세와 공간 관계를 이해하는 것이 중요한 이미지 인식과 같은 작업에서 특히 효과적입니다.
캡스넷은 활동 벡터가 물체나 물체 일부와 같은 특정 유형의 엔티티의 다양한 속성을 나타내는 뉴런 그룹인 '캡슐'이라는 개념을 도입했습니다. 활동 벡터의 길이는 엔티티가 존재할 확률을 나타내며, 방향은 인스턴스화 매개변수(예: 위치, 크기, 방향)를 인코딩합니다. 한 레벨의 활성 캡슐은 변환 행렬을 통해 상위 레벨 캡슐의 인스턴스화 매개변수에 대한 예측을 합니다. 여러 예측이 일치하면 상위 레벨 캡슐이 활성화됩니다. 이 프로세스를 "합의에 의한 라우팅"이라고 합니다.
캡스넷과 컨볼루션 신경망(CNN) 은 모두 컴퓨터 비전(CV) 작업에 사용되지만, 공간 정보를 처리하는 방식이 크게 다릅니다:
캡스넷은 기존 CNN에 비해 몇 가지 장점이 있습니다:
캡슐 네트워크는 다양한 애플리케이션에서 가능성을 보여주며 딥 러닝(DL) 분야를 발전시킬 수 있는 잠재력을 입증했습니다:
이러한 장점에도 불구하고, 캡스넷은 CNN에 비해 계산 복잡성이 높고 아키텍처와 훈련 절차를 최적화하기 위한 추가 연구가 필요하다는 등의 과제를 안고 있습니다. 현재 진행 중인 연구는 동적 라우팅의 효율성을 개선하고, 새로운 캡슐 유형을 탐색하며, 이미지 인식을 넘어 더 넓은 범위의 작업에 캡스넷을 적용하는 데 초점을 맞추고 있습니다.
인공 지능(AI) 분야가 계속 발전함에 따라 캡슐 네트워크는 더욱 강력하고 다양한 신경망 모델을 만들 수 있는 새로운 가능성을 제시하는 흥미로운 개발 분야입니다. 상세한 공간 정보를 캡처하고 변환을 처리하는 능력 덕분에 컴퓨터 비전 및 기타 AI 애플리케이션을 발전시키는 데 유용한 도구가 될 수 있습니다. 최첨단 AI 모델에 관심이 있는 분들을 위해 Ultralytics YOLO 모델에서는 이 분야의 최신 기술을 통합한 최첨단 물체 감지 아키텍처를 제공합니다. 또한 Ultralytics 허브는 이러한 모델을 훈련하고 배포할 수 있는 플랫폼을 제공하여 고급 AI 솔루션의 개발과 적용을 더욱 용이하게 해줍니다.