Glosario

Red neuronal convolucional (CNN)

Descubre cómo las Redes Neuronales Convolucionales (CNN) revolucionan la visión por ordenador, impulsando la IA en la sanidad, los coches autónomos y mucho más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Una Red Neuronal Convolucional (CNN) es un tipo de modelo de aprendizaje profundo especialmente adecuado para analizar datos visuales como imágenes y vídeos. A diferencia de las redes neuronales tradicionales, las CNN están diseñadas para aprender de forma automática y adaptativa jerarquías espaciales de características a partir de los datos de entrada. Esto se consigue mediante capas que realizan operaciones matemáticas, como la convolución, para detectar patrones como bordes, texturas y formas más complejas. Las CNN han revolucionado el campo de la visión por ordenador (VC), permitiendo avances significativos en la forma en que las máquinas interpretan y comprenden la información visual.

Componentes básicos y funcionalidad

Las CNN se componen de varios tipos de capas, cada una de las cuales cumple una función distinta en el procesamiento de los datos visuales:

  • Capas convolucionales: Estas capas utilizan filtros para escanear la imagen de entrada y crear mapas de características que resalten patrones específicos. Cada filtro es responsable de detectar una característica concreta, como un borde vertical o una curva. Para conocer en profundidad el proceso de convolución, puedes explorar la convolución.
  • Capas de agrupamiento: Normalmente utilizadas después de las capas convolucionales, las capas de agrupamiento reducen las dimensiones espaciales de los mapas de características, disminuyendo la carga computacional y ayudando a evitar el sobreajuste. Los tipos más comunes son la agrupación máxima y la agrupación media.
  • Función de activación: Las funciones de activación introducen no linealidad en la red, lo que le permite aprender patrones complejos. Algunas opciones populares son la ReLU (Unidad Lineal Rectificada) y sus variantes, como la ReLU con fugas.
  • Capas totalmente conectadas: Estas capas conectan todas las neuronas de la capa anterior a la siguiente, de forma similar a las redes neuronales tradicionales. Suelen colocarse hacia el final de la red y se encargan de hacer la clasificación o predicción final basándose en las características extraídas por las capas convolucionales.
  • Capas de abandono: Estas capas ayudan a evitar el sobreajuste poniendo aleatoriamente a 0 una fracción de las unidades de entrada en cada actualización durante el tiempo de entrenamiento, lo que ayuda a evitar el sobreajuste.

Principales diferencias con otras redes neuronales

Aunque todas las redes neuronales comparten el concepto básico de nodos interconectados, las CNN difieren significativamente de otros tipos como las Redes Neuronales Recurrentes (RNN) o las redes feedforward básicas:

  • Jerarquía espacial: Las CNN destacan en la captura de jerarquías espaciales en los datos, lo que es crucial para el análisis de imágenes y vídeos. Las RNN, en cambio, están diseñadas para datos secuenciales, lo que las hace más adecuadas para tareas como el procesamiento del lenguaje natural (PLN) y el análisis de series temporales.
  • Compartición de parámetros: En las CNN, los filtros se comparten en todo el espacio de entrada, lo que reduce significativamente el número de parámetros en comparación con las redes totalmente conectadas. Esto no sólo hace que las CNN sean más eficientes, sino que también les ayuda a generalizar mejor en tareas visuales.
  • Campos receptivos locales: Las neuronas de las CNN sólo están conectadas a una región local de la entrada, conocida como campo receptivo, lo que les permite detectar patrones locales con eficacia. Esto contrasta con las redes totalmente conectadas, en las que cada neurona está conectada a todas las neuronas de la capa anterior.

Aplicaciones en el mundo real

Las CNN han demostrado notables capacidades en diversos dominios. He aquí dos ejemplos concretos de sus aplicaciones en el mundo real:

  1. Análisis de imágenes médicas: Las CNN se utilizan mucho en sanidad para analizar imágenes médicas como radiografías, tomografías computarizadas y resonancias magnéticas. Pueden detectar anomalías, clasificar enfermedades y segmentar órganos con gran precisión. Por ejemplo, las CNN pueden identificar tumores, fracturas y otras afecciones, ayudando a los médicos en el diagnóstico y la planificación del tratamiento. La capacidad de las CNN para aprender patrones intrincados a partir de imágenes las hace inestimables para mejorar los resultados de los pacientes. Más información sobre la IA en la sanidad.
  2. Vehículos autónomos: Los coches autónomos dependen en gran medida de las CNN para la detección de objetos, la segmentación de imágenes y la comprensión de escenas. Las CNN procesan los datos visuales de las cámaras para identificar peatones, otros vehículos, señales de tráfico y límites de la carretera. Esta información es crucial para tomar decisiones de conducción en tiempo real, garantizando la seguridad y eficacia de los vehículos autónomos. Más información sobre la IA en los coches autónomos.

Herramientas y marcos

Desarrollar e implantar CNN es más fácil con diversas herramientas y marcos que proporcionan capas preconstruidas, algoritmos de optimización y aceleración por hardware:

  • PyTorch: Un marco de aprendizaje profundo de código abierto conocido por su flexibilidad y facilidad de uso. PyTorch permite gráficos de cálculo dinámicos, lo que lo hace popular entre investigadores y desarrolladores.
  • TensorFlow: Desarrollado por Google, TensorFlow es otro marco ampliamente utilizado que soporta tanto entornos de investigación como de producción. Ofrece un completo ecosistema de herramientas, bibliotecas y recursos comunitarios.
  • Keras: Una biblioteca de redes neuronales fácil de usar que puede ejecutarse sobre TensorFlow o PyTorch. Keras simplifica el proceso de construcción y entrenamiento de modelos de aprendizaje profundo.
  • Ultralytics YOLO: La primera vez que se utiliza "YOLO", Ultralytics YOLO los modelos son modelos de detección de objetos de última generación que aprovechan las arquitecturas CNN para lograr una gran precisión y velocidad. Estos modelos están disponibles a través del HUB Ultralytics , que proporciona herramientas para entrenar, desplegar y gestionar modelos de forma eficiente.

Al comprender los entresijos de las CNN, los usuarios pueden apreciar mejor su importancia en el avance de la IA y el aprendizaje automático. Estas redes siguen impulsando la innovación en todos los sectores, lo que las convierte en la piedra angular de las aplicaciones modernas de visión por ordenador.

Leer todo