Glosario

Red troncal

Descubre el papel de las redes troncales en el aprendizaje profundo, explora las mejores arquitecturas como ResNet y ViT, y aprende sus aplicaciones en el mundo real de la IA.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

En el ámbito del aprendizaje profundo, especialmente en el de la visión por ordenador, el término "columna vertebral" se refiere a una parte crucial de una red neuronal que es responsable de la extracción de características. Piensa en ella como la base sobre la que se construye el resto de la red. La columna vertebral toma los datos de entrada brutos, como las imágenes, y los transforma en un formato estructurado, conocido como mapas de características, que pueden utilizar eficazmente las partes posteriores de la red. Estos mapas de características capturan información esencial sobre la entrada, como bordes, texturas y formas, lo que permite al modelo comprender e interpretar datos visuales complejos. Para los usuarios familiarizados con los conceptos básicos del aprendizaje automático, la columna vertebral puede entenderse como las capas iniciales de una red neuronal que aprenden representaciones jerárquicas de los datos de entrada.

Función e importancia de las columnas vertebrales

La columna vertebral desempeña un papel fundamental a la hora de determinar el rendimiento y la eficacia generales de un modelo de aprendizaje profundo. Suele constar de varias capas de operaciones convolucionales, agrupaciones y activaciones. Las capas convolucionales se encargan de extraer características de los datos de entrada, mientras que las capas de agrupación reducen las dimensiones espaciales de los mapas de características, haciendo que el modelo sea más eficiente desde el punto de vista computacional. Las funciones de activación introducen la no linealidad en la red, permitiéndole aprender patrones complejos. La salida de la columna vertebral, los mapas de características, se introduce en las partes posteriores de la red, como los cabezales de detección para la detección de objetos o los módulos de segmentación para la segmentación de imágenes. La calidad de las características extraídas por la red troncal influye directamente en la capacidad del modelo para realizar con precisión la tarea que se le ha asignado.

Arquitecturas troncales populares

Varias arquitecturas troncales han ganado popularidad en la visión por ordenador debido a su eficacia en diversas tareas. Algunos ejemplos notables son:

  • Redes residuales (ResNet): ResNet introdujo el concepto de conexiones residuales, que permiten entrenar redes muy profundas mitigando el problema del gradiente evanescente. Las arquitecturas ResNet han demostrado un rendimiento notable en tareas de clasificación de imágenes, detección de objetos y segmentación.
  • Transformadores de Visión (ViT): Las arquitecturas ViT aplican el modelo Transformer, desarrollado originalmente para el procesamiento del lenguaje natural, a tareas de visión por ordenador. Los ViT dividen las imágenes en parches y las procesan como secuencias, lo que permite al modelo captar las dependencias de largo alcance dentro de la imagen.

Aplicaciones reales de los Backbones

Los backbones son fundamentales para una amplia gama de aplicaciones de IA del mundo real, ya que permiten a las máquinas "ver" e interpretar datos visuales de forma similar a los humanos. He aquí dos ejemplos concretos:

Vehículos autónomos

En los coches autoconducidos, los backbones se utilizan para procesar los datos visuales de las cámaras y otros sensores, permitiendo al vehículo percibir su entorno. Por ejemplo Ultralytics YOLO utilizan backbones eficientes para detectar objetos como peatones, otros vehículos y señales de tráfico en tiempo real. Esta información es crucial para que el sistema de navegación del vehículo tome decisiones informadas y garantice una conducción segura.

Sanidad

En el análisis de imágenes médicas, las columnas vertebrales se emplean para extraer características de imágenes médicas como radiografías, resonancias magnéticas y tomografías computarizadas. Estas características pueden utilizarse para tareas como el diagnóstico de enfermedades, la detección de anomalías y la segmentación de estructuras anatómicas. Por ejemplo, una columna vertebral puede entrenarse en un conjunto de datos de imágenes de tumores cerebrales, como el conjunto de datos de detección de tumores cerebrales, para aprender características relevantes que ayuden a identificar y localizar tumores.

Consideraciones sobre la selección de la red troncal

Elegir la columna vertebral adecuada para una aplicación concreta depende de varios factores, como la complejidad de la tarea, los recursos informáticos disponibles y la precisión deseada. Para entornos con recursos limitados, como los dispositivos móviles o las aplicaciones de Inteligencia Artificial de borde, pueden preferirse columnas vertebrales más ligeras y con menos parámetros. En cambio, para tareas que requieran una gran precisión, pueden ser necesarias columnas vertebrales más profundas y complejas.

Backbones vs. Otros componentes

Es importante distinguir la columna vertebral de otros componentes de una red neuronal. Mientras que la columna vertebral extrae características, otras partes de la red, como el cabezal de detección o el módulo de segmentación, se encargan de hacer predicciones basadas en esas características. La columna vertebral es como los ojos de la red, que proporcionan la información visual en bruto, mientras que los demás componentes son como el cerebro, que interpreta esa información para realizar tareas específicas. Además, el concepto de aprendizaje por transferencia se aplica a menudo a las redes troncales, en las que una red troncal preentrenada en un gran conjunto de datos como ImageNet se utiliza como punto de partida para el entrenamiento en una nueva tarea. Esto permite que el modelo aproveche el conocimiento aprendido del conjunto de datos preentrenado, mejorando el rendimiento y reduciendo el tiempo de entrenamiento. Herramientas como Ultralytics HUB simplifican el proceso de experimentar con diferentes bases y entrenar modelos personalizados.

Leer todo