Glosario

Redes de cápsulas (CapsNet)

Descubre las Redes de Cápsulas (CapsNets): Una innovadora arquitectura de redes neuronales que destaca en jerarquías espaciales y relaciones de rasgos.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Las Redes de Cápsulas, a menudo denominadas CapsNets, representan un novedoso tipo de arquitectura de red neuronal diseñada para abordar algunas limitaciones de las Redes Neuronales Convolucionales (CNN) tradicionales, sobre todo en el manejo de jerarquías espaciales y relaciones entre características en imágenes. A diferencia de las CNN, que utilizan salidas escalares de operaciones de agrupamiento, las CapsNets emplean vectores para representar características, lo que les permite captar información más detallada sobre la orientación y las posiciones espaciales relativas de los objetos. Esta capacidad hace que las CapsNets sean especialmente eficaces en tareas como el reconocimiento de imágenes, donde es crucial comprender la pose y las relaciones espaciales de los objetos.

Conceptos básicos

Las CapsNets introducen el concepto de "cápsulas", que son grupos de neuronas cuyo vector de actividad representa diversas propiedades de un tipo específico de entidad, como un objeto o una parte de un objeto. La longitud del vector de actividad representa la probabilidad de que la entidad exista, mientras que su orientación codifica los parámetros de instanciación (por ejemplo, posición, tamaño, orientación). Las cápsulas activas de un nivel hacen predicciones, mediante matrices de transformación, de los parámetros de instanciación de las cápsulas de nivel superior. Cuando varias predicciones coinciden, se activa una cápsula de nivel superior. Este proceso se conoce como "enrutamiento por acuerdo".

Principales diferencias con las redes neuronales convolucionales (CNN)

Aunque tanto las CapsNets como las Redes Neuronales Convolucionales (CNN ) se utilizan en tareas de visión por ordenador (VC), difieren significativamente en su enfoque del procesamiento de la información espacial:

  • Representación de características: Las CNN utilizan valores escalares para representar características, mientras que las CapsNets utilizan vectores, lo que les permite captar información más detallada sobre la pose y las propiedades de los objetos.
  • Operaciones de agrupamiento: Las CNN suelen utilizar la agrupación máxima, que puede provocar la pérdida de información espacial precisa. Las CapsNets lo evitan utilizando el enrutamiento dinámico, que preserva las jerarquías espaciales.
  • Equivarianza: Las CapsNets están diseñadas para ser equivariantes a los cambios de punto de vista, lo que significa que pueden reconocer objetos aunque cambie su orientación. Las CNN no son intrínsecamente equivariantes y requieren técnicas como el aumento de datos para conseguir resultados similares.

Ventajas de las redes de cápsulas

Las CapsNets ofrecen varias ventajas sobre las CNN tradicionales:

  • Mejor manejo de las jerarquías espaciales: Al representar las características como vectores, CapsNets puede comprender mejor las relaciones espaciales entre las partes de un objeto.
  • Mayor robustez a las transformaciones afines: Las CapsNets pueden reconocer objetos bajo diversas transformaciones (por ejemplo, rotación, escalado) sin necesidad de aumentar mucho los datos.
  • Mejor generalización con menos datos: Debido a su capacidad para captar información detallada de las características, las CapsNets a menudo pueden lograr un buen rendimiento con menos ejemplos de entrenamiento en comparación con las CNN.

Aplicaciones en el mundo real

Las redes de cápsulas se han mostrado prometedoras en diversas aplicaciones, demostrando su potencial para avanzar en el campo del aprendizaje profundo (AD):

  • Imágenes médicas: En el análisis de imágenes médicas, las CapsNets pueden mejorar la precisión del diagnóstico de enfermedades al comprender mejor las relaciones espaciales entre las distintas estructuras anatómicas. Por ejemplo, pueden utilizarse para detectar y clasificar tumores con mayor precisión analizando su forma, tamaño y posición relativa dentro de un órgano.
  • Vehículos autónomos: Las CapsNets pueden mejorar los sistemas de percepción de los vehículos autónomos mejorando la detección y el reconocimiento de objetos, especialmente en condiciones difíciles como puntos de vista variables y oclusiones. Esto puede conducir a una navegación más segura y fiable.
  • Reconocimiento facial: En los sistemas de reconocimiento facial, las CapsNets pueden proporcionar un rendimiento más robusto al captar con precisión las relaciones espaciales entre los rasgos faciales, incluso bajo cambios de pose y expresión.

Retos y orientaciones futuras

A pesar de sus ventajas, las CapsNets también se enfrentan a retos, como una mayor complejidad computacional en comparación con las CNN y la necesidad de seguir investigando para optimizar su arquitectura y sus procedimientos de entrenamiento. Las investigaciones en curso se centran en mejorar la eficacia del enrutamiento dinámico, explorar nuevos tipos de cápsulas y aplicar las CapsNets a una gama más amplia de tareas más allá del reconocimiento de imágenes.

A medida que el campo de la inteligencia artificial (IA) sigue evolucionando, las Redes de Cápsulas representan un área de desarrollo apasionante, que ofrece nuevas posibilidades para crear modelos de redes neuronales más robustos y versátiles. Su capacidad para captar información espacial detallada y manejar transformaciones las convierte en una valiosa herramienta para el avance de la visión por ordenador y otras aplicaciones de IA. Para los interesados en explorar modelos de IA de vanguardia, los modelos Ultralytics YOLO ofrecen arquitecturas de detección de objetos de última generación que incorporan algunos de los avances más recientes en este campo. Además, el HUB Ultralytics proporciona una plataforma para entrenar y desplegar estos modelos, facilitando aún más el desarrollo y la aplicación de soluciones avanzadas de IA.

Leer todo