Red neuronal convolucional (CNN)
Descubra cómo las redes neuronales convolucionales (CNN) revolucionan la visión por ordenador, impulsando la IA en la asistencia sanitaria, los coches autónomos y mucho más.
Una red neuronal convolucional (CNN) es un tipo especializado de red neuronal (NN ) muy eficaz para procesar datos con una topología cuadriculada, como las imágenes. Inspiradas en la corteza visual humana, las CNN aprenden de forma automática y adaptativa jerarquías espaciales de características a partir de los datos de entrada. Esto las convierte en la arquitectura fundamental para la mayoría de las tareas modernas de visión por computador (VC ), en las que han logrado resultados punteros en todos los campos, desde la clasificación de imágenes a la detección de objetos.
Cómo funcionan los Cnn
A diferencia de una red neuronal estándar, en la que cada neurona de una capa está conectada a todas las neuronas de la siguiente, las CNN utilizan una operación matemática especial llamada convolución. Esto permite a la red aprender características en un campo receptivo local, preservando las relaciones espaciales entre píxeles.
Una arquitectura típica de CNN consta de varias capas clave:
- Capa convolucional: Este es el bloque central en el que un filtro, o núcleo, se desliza sobre la imagen de entrada para producir mapas de características. Estos mapas destacan patrones como bordes, esquinas y texturas. El tamaño de estos filtros y los patrones que detectan se aprenden durante el entrenamiento del modelo.
- Capa de activación: Después de cada convolución, se aplica una función de activación como ReLU para introducir no linealidad, lo que permite al modelo aprender patrones más complejos.
- Capa de muestreo: Esta capa reduce las dimensiones espaciales (anchura y altura) de los mapas de características, lo que disminuye la carga computacional y ayuda a que las características detectadas sean más robustas a los cambios de posición y orientación. Un artículo clásico sobre el tema es ImageNet Classification with Deep Convolutional Neural Networks.
- Capa totalmente conectada: Tras varias capas convolucionales y de agrupación, las características de alto nivel se aplanan y pasan a una capa totalmente conectada, que realiza la clasificación basándose en las características aprendidas.
Cnn frente a otras arquitecturas
Aunque las CNN son un tipo de modelo de aprendizaje profundo, difieren significativamente de otras arquitecturas.
- Redes neuronales (NN): Una NN estándar trata los datos de entrada como un vector plano, perdiendo toda la información espacial. Las CNN conservan esta información, lo que las hace ideales para el análisis de imágenes.
- Transformadores de visión (ViT): A diferencia de las CNN, que tienen un fuerte sesgo inductivo hacia la localidad espacial, ViTs tratar una imagen como una secuencia de parches y utilizar un autoatención para aprender relaciones globales. Los ViT suelen requerir más datos para entrenarse, pero pueden sobresalir en tareas en las que el contexto a largo plazo es importante. Muchos modelos modernos, como RT-DETRutilizan un enfoque híbrido, combinando una CNN
backbone
con un transformador detection head
.
Aplicaciones reales
Las CNN son la fuerza motriz de innumerables aplicaciones del mundo real:
- Detección de objetos: Los modelos de la familia YOLO de Ultralytics, como YOLOv8 y YOLO11, utilizan columnas vertebrales CNN para identificar y localizar objetos en imágenes y vídeos con notable rapidez y precisión. Esta tecnología es crucial para todo, desde la IA en sistemas de automoción hasta la gestión de inventarios basada en IA.
- Análisis de imágenes médicas: En el ámbito sanitario, las CNN ayudan a los radiólogos a analizar las exploraciones médicas (radiografías, resonancias magnéticas, tomografías computarizadas) para detectar tumores, fracturas y otras anomalías. Esta aplicación ayuda a mejorar la velocidad y la coherencia de los diagnósticos, como se destaca en investigaciones de instituciones como los Institutos Nacionales de Salud (NIH). Puede explorar el análisis de imágenes médicas con Ultralytics para obtener más información.
- Segmentación de imágenes: Para tareas que requieren una comprensión a nivel de píxel, como en los vehículos autónomos que necesitan distinguir la carretera de un peatón, las arquitecturas basadas en CNN como U-Net se utilizan ampliamente para la segmentación de imágenes.
Herramientas y marcos
El desarrollo y la implantación de las CNN se apoyan en potentes herramientas y marcos de trabajo: