探索胶囊网络(CapsNets)及其如何突破卷积神经网络(CNNs)的局限。了解动态路由机制、空间分层结构,并对比胶囊网络与YOLO26的性能表现。
胶囊网络(常简称为CapsNets)是深度学习领域中一种先进的架构,旨在克服传统神经网络存在的特定局限性。该模型由杰弗里·辛顿及其团队提出,试图比标准模型更紧密地模拟人类大脑的生物神经组织结构。 与擅长特征检测但因下采样常丢失空间关系的典型卷积神经网络(CNN)不同,胶囊网络将神经元组织成称为"胶囊"的单元组。这些胶囊不仅编码物体存在的概率,还编码其具体属性(如方向、尺寸和纹理),从而有效保留视觉数据中的分层空间关系。
要理解CapsNets的创新之处,了解标准计算机视觉模型的运作机制很有帮助。传统卷积神经网络(CNN)采用多层特征提取,随后通过池化层(特别是最大池化)来降低计算负荷并实现平移不变性。这意味着CNN能够识别图像中任意位置的"猫"。
然而,该过程常会丢弃精确的位置数据,从而引发"毕加索问题":即使嘴巴出现在额头上,卷积神经网络classify 正确classify 仅仅因为所有必要特征均完整存在。CapsNets通过移除池化层并采用尊重物体空间层次结构的处理机制来解决此问题。
该架构的核心构建模块是胶囊,即一组嵌套的神经元,其输出为向量而非标量值。在向量数学中,向量同时具有大小和方向。在胶囊神经网络(CapsNet)中:
底层胶囊(检测边缘等简单形状)会预测上层胶囊(检测眼睛或轮胎等复杂物体)的输出结果。这种通信由名为"动态路由"或"协议路由"的算法管理。 若低层胶囊的预测结果与高层胶囊的状态一致,两者间的连接强度将增强。这使得网络能够从不同三维视角识别物体,而无需像训练卷积神经网络(CNN)理解旋转与缩放时那样进行海量数据增强。
虽然这两种架构都是计算机视觉(CV)的基础, 它们在处理和表示视觉数据的方式上存在差异:
尽管CapsNets在计算成本上通常高于YOLO26等优化模型,但在特定领域中具有显著优势:
Capsule Networks(胶囊网络)主要是一种分类架构。虽然它们在理论上具有鲁棒性,但现代工业应用往往更青睐高速卷积神经网络(CNNs)或Transformer模型以实现实时性能。然而,理解胶囊网络所使用的分类基准数据集(MNIST)仍具有重要价值。
以下示例演示了如何训练现代
YOLO 在MNIST 上使用
ultralytics 该任务与用于验证囊状网络的主要基准任务相类似。
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
胶囊网络背后的原理持续影响着 人工智能安全与可解释性研究。通过显式建模 部分-整体关系,胶囊为深度神经网络的"黑箱"特性提供了"玻璃箱"替代方案, 使决策过程更具可解释性。未来发展将致力于融合胶囊的空间鲁棒性 与YOLO11等架构的推理速度, YOLO11 或更新的YOLO26等架构的推理速度,以提升三维物体检测与机器人系统的性能。研究人员还正探索采用EM路由的矩阵胶囊,进一步降低协议算法的计算成本。
对于希望高效管理数据集并训练模型的开发者而言,Ultralytics 提供了一个统一环境,可用于数据标注、云端训练以及部署模型——这些模型在保持卷积神经网络(CNNs)速度的同时,还能满足复杂视觉任务所需的精度要求。