Descubre el papel de las redes troncales en el aprendizaje profundo, explora las mejores arquitecturas como ResNet y ViT, y aprende sus aplicaciones en el mundo real de la IA.
En el aprendizaje profundo, sobre todo en el campo de la visión por ordenador (VC), la "columna vertebral" se refiere al conjunto inicial y fundacional de capas de un modelo de red neuronal (RN ). Su objetivo principal es la extracción de características: procesar los datos de entrada brutos, como una imagen, y transformarlos en una representación compacta e informativa. Esta representación, a menudo denominada mapas de características, capta los patrones, texturas y formas esenciales de la entrada. Piensa en la columna vertebral como en los ojos de la IA, que realiza la interpretación inicial antes de que se produzca el razonamiento de nivel superior. Este procesamiento básico es fundamental para la capacidad general del modelo de comprender e interpretar la información visual en tareas posteriores.
Una red troncal típica consiste en una secuencia de capas, que suelen incluir capas convolucionales, capas de agrupación (que reducen las dimensiones espaciales) y funciones de activación (que introducen la no linealidad). A medida que los datos de entrada pasan por estas capas, la red aprende progresivamente características jerárquicas. Las primeras capas pueden detectar elementos simples como bordes y esquinas, mientras que las capas más profundas combinan estas características más simples para reconocer estructuras más complejas, partes de objetos y, finalmente, objetos enteros. La salida generada por la columna vertebral es un conjunto de mapas de características de alto nivel que resumen la información crucial de la entrada original. Este proceso reduce eficazmente la dimensionalidad de los datos al tiempo que conserva su significado semántico, formando la base de muchos modelos de aprendizaje profundo de éxito.
En los modelos sofisticados de visión por ordenador diseñados para tareas como la detección de objetos, la segmentación de instancias o la estimación de poses, la columna vertebral proporciona la representación esencial de las características. Los componentes posteriores, a menudo denominados "cuello" (que refina y agrega características) y "cabeza" (que realiza la predicción final de la tarea), se basan en las características extraídas por la columna vertebral. Por ejemplo, una cabeza de detección utiliza estas características refinadas para predecir recuadros delimitadores alrededor de los objetos detectados y sus clases correspondientes. La columna vertebral es distinta de estas etapas posteriores; su único objetivo es generar una potente representación de características, a menudo de uso general, a partir de los datos de entrada. Una práctica habitual es utilizar columnas vertebrales preentrenadas en conjuntos de datos a gran escala, como ImageNet, y luego afinarlas para tareas posteriores específicas mediante el aprendizaje por transferencia, lo que acelera considerablemente el proceso de entrenamiento.
Varias arquitecturas de redes neuronales bien establecidas se emplean con frecuencia como columnas vertebrales debido a su eficacia demostrada en la extracción de características:
La elección de la columna vertebral influye significativamente en las características de rendimiento de un modelo, como la velocidad, el coste computacional(FLOPs) y la precisión, como se pone de manifiesto en varias comparaciones de modelos. Frameworks como PyTorch y TensorFlowjunto con bibliotecas como OpenCV, son herramientas esenciales para implementar y utilizar estas columnas vertebrales. Plataformas como Ultralytics HUB simplifican aún más el proceso de utilización de modelos con diferentes backbones.
Es importante no confundir la columna vertebral con toda la red neuronal u otros componentes específicos:
Los backbones son componentes fundamentales en innumerables aplicaciones de IA: