Explora el papel de una columna vertebral en el aprendizaje profundo. Descubre cómo Ultralytics utiliza columnas vertebrales optimizadas para una extracción de características y una detección de objetos rápidas y precisas.
Una columna vertebral es el componente fundamental de extracción de características de una arquitectura de aprendizaje profundo, que actúa como el motor principal que transforma los datos sin procesar en representaciones significativas. En el contexto de la visión por computadora, la columna vertebral suele comprender una serie de capas dentro de una red neuronal que procesa imágenes de entrada para identificar patrones jerárquicos. Estos patrones van desde características simples de bajo nivel, como bordes y texturas, hasta conceptos complejos de alto nivel, como formas y objetos. La salida de la columna vertebral, a menudo denominada mapa de características, sirve como entrada para los componentes posteriores que realizan tareas específicas como la clasificación o la detección.
La función principal de una red troncal es «ver» y comprender el contenido visual de una imagen antes de tomar cualquier decisión específica. Actúa como un traductor universal, convirtiendo los valores de los píxeles en un formato condensado y rico en información. La mayoría de las redes troncales modernas se basan en redes neuronales convolucionales (CNN) o transformadores de visión (ViT) y, a menudo, se entrenan previamente con conjuntos de datos masivos como ImageNet. Este proceso de preentrenamiento , un aspecto fundamental del aprendizaje por transferencia, permite al modelo aprovechar las características visuales aprendidas previamente, lo que reduce significativamente los datos y el tiempo necesarios para entrenar un nuevo modelo para una aplicación específica.
Por ejemplo, cuando se utiliza Ultralytics , la arquitectura incluye una columna vertebral altamente optimizada que extrae de manera eficiente características multiescala. Esto permite que las partes posteriores de la red se centren por completo en localizar objetos y asignar probabilidades de clase sin necesidad de volver a aprender a reconocer estructuras visuales básicas desde cero.
Para comprender plenamente la arquitectura de los modelos de detección de objetos, es esencial distinguir la columna vertebral de los otros dos componentes principales: el cuello y la cabeza.
Las redes troncales son los silenciosos caballos de batalla detrás de muchas aplicaciones industriales y científicas de IA. Su capacidad para generalizar datos visuales las hace adaptables a diversos sectores.
Arquitecturas de última generación como YOLO11 y la innovadora YOLO26 integran potentes estructuras por defecto. Estos componentes están diseñados para una latencia de inferencia óptima en diversas plataformas de hardware , desde dispositivos periféricos hasta GPU de alto rendimiento .
El siguiente Python muestra cómo cargar un modelo con una estructura preentrenada utilizando el
ultralytics paquete. Esta configuración aprovecha automáticamente la columna vertebral para la extracción de características durante la
inferencia.
from ultralytics import YOLO
# Load a YOLO26 model, which includes a pre-trained CSP backbone
model = YOLO("yolo26n.pt")
# Perform inference on an image
# The backbone extracts features, which are then used for detection
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting detection
results[0].show()
Al utilizar una estructura preentrenada, los desarrolladores pueden realizar ajustes precisos en sus propios conjuntos de datos personalizados utilizando la Ultralytics . Este enfoque facilita el rápido desarrollo de modelos especializados, como los que se utilizan para detectar paquetes en logística, sin los enormes recursos computacionales que normalmente se requieren para entrenar una red neuronal profunda desde cero.