Glosario

Red troncal

Descubre el papel de las redes troncales en el aprendizaje profundo, explora las mejores arquitecturas como ResNet y ViT, y aprende sus aplicaciones en el mundo real de la IA.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

En el aprendizaje profundo, sobre todo en el campo de la visión por ordenador (VC), la "columna vertebral" se refiere al conjunto inicial y fundacional de capas de un modelo de red neuronal (RN ). Su objetivo principal es la extracción de características: procesar los datos de entrada brutos, como una imagen, y transformarlos en una representación compacta e informativa. Esta representación, a menudo denominada mapas de características, capta los patrones, texturas y formas esenciales de la entrada. Piensa en la columna vertebral como en los ojos de la IA, que realiza la interpretación inicial antes de que se produzca el razonamiento de nivel superior. Este procesamiento básico es fundamental para la capacidad general del modelo de comprender e interpretar la información visual en tareas posteriores.

Funciones básicas

Una red troncal típica consiste en una secuencia de capas, que suelen incluir capas convolucionales, capas de agrupación (que reducen las dimensiones espaciales) y funciones de activación (que introducen la no linealidad). A medida que los datos de entrada pasan por estas capas, la red aprende progresivamente características jerárquicas. Las primeras capas pueden detectar elementos simples como bordes y esquinas, mientras que las capas más profundas combinan estas características más simples para reconocer estructuras más complejas, partes de objetos y, finalmente, objetos enteros. La salida generada por la columna vertebral es un conjunto de mapas de características de alto nivel que resumen la información crucial de la entrada original. Este proceso reduce eficazmente la dimensionalidad de los datos al tiempo que conserva su significado semántico, formando la base de muchos modelos de aprendizaje profundo de éxito.

Papel en los modelos de visión por ordenador

En los modelos sofisticados de visión por ordenador diseñados para tareas como la detección de objetos, la segmentación de instancias o la estimación de poses, la columna vertebral proporciona la representación esencial de las características. Los componentes posteriores, a menudo denominados "cuello" (que refina y agrega características) y "cabeza" (que realiza la predicción final de la tarea), se basan en las características extraídas por la columna vertebral. Por ejemplo, una cabeza de detección utiliza estas características refinadas para predecir recuadros delimitadores alrededor de los objetos detectados y sus clases correspondientes. La columna vertebral es distinta de estas etapas posteriores; su único objetivo es generar una potente representación de características, a menudo de uso general, a partir de los datos de entrada. Una práctica habitual es utilizar columnas vertebrales preentrenadas en conjuntos de datos a gran escala, como ImageNet, y luego afinarlas para tareas posteriores específicas mediante el aprendizaje por transferencia, lo que acelera considerablemente el proceso de entrenamiento.

Arquitecturas troncales comunes

Varias arquitecturas de redes neuronales bien establecidas se emplean con frecuencia como columnas vertebrales debido a su eficacia demostrada en la extracción de características:

La elección de la columna vertebral influye significativamente en las características de rendimiento de un modelo, como la velocidad, el coste computacional(FLOPs) y la precisión, como se pone de manifiesto en varias comparaciones de modelos. Frameworks como PyTorch y TensorFlowjunto con bibliotecas como OpenCV, son herramientas esenciales para implementar y utilizar estas columnas vertebrales. Plataformas como Ultralytics HUB simplifican aún más el proceso de utilización de modelos con diferentes backbones.

Distinguir la columna vertebral de los términos relacionados

Es importante no confundir la columna vertebral con toda la red neuronal u otros componentes específicos:

  • Red neuronal completa: La columna vertebral es sólo una parte, normalmente la parte inicial de extracción de características, de una arquitectura de red mayor. La red completa también incluye el cuello y la(s) cabeza(s) responsable(s) de las predicciones específicas de la tarea.
  • Cabezal de detección: es la parte final de un modelo de detección de objetos que toma características (a menudo procesadas tanto por la columna vertebral como por el cuello) y produce coordenadas de cuadro delimitador y probabilidades de clase. Es específica de la tarea, a diferencia de la columna vertebral, que es más general.
  • Extractor de características: Aunque la columna vertebral es un extractor de características, el término "extractor de características" puede referirse a veces a cualquier parte de una red que extraiga características, o incluso a algoritmos independientes de extracción de características ajenos al aprendizaje profundo (como SIFT o HOG). En el contexto de las arquitecturas modernas de aprendizaje profundo como Ultralytics YOLOla "columna vertebral" se refiere específicamente a la base convolucional inicial.

Aplicaciones en el mundo real

Los backbones son componentes fundamentales en innumerables aplicaciones de IA:

  1. Conducción autónoma: Los sistemas de los coches de conducción autónoma dependen en gran medida de redes troncales robustas (por ejemplo, las variantes ResNet o EfficientNet) para procesar las entradas de las cámaras y los sensores LiDAR. Las características extraídas permiten la detección y clasificación de vehículos, peatones, semáforos y líneas de carril, lo que es crucial para la navegación segura y la toma de decisiones, como se ha visto en sistemas desarrollados por empresas como Waymo.
  2. Análisis de imágenes médicas: En las soluciones de IA sanitaria, se utilizan columnas vertebrales para analizar exploraciones médicas como radiografías, TAC o resonancias magnéticas. Por ejemplo, una red troncal como DenseNet podría extraer características de una radiografía de tórax para ayudar a detectar signos de neumonía o de un TAC para identificar posibles tumores(investigación relevante en Radiología: IA). Esto ayuda a los radiólogos en el diagnóstico y la planificación del tratamiento. Modelos Ultralytics como YOLO11 pueden adaptarse a tareas como la detección de tumores aprovechando potentes bases.
Leer todo