Explora la arquitectura Transformer y el mecanismo de autoatención. Descubre cómo potencian modelos de IA como RT-DETR Ultralytics para lograr una precisión superior.
Un transformador es una arquitectura de aprendizaje profundo que se basa en un mecanismo denominado autoatención para procesar datos de entrada secuenciales, como el lenguaje natural o las características visuales. Introducido originalmente por Google en el histórico artículo Attention Is All You Need, el Transformer revolucionó el campo de la inteligencia artificial (IA) al descartar las limitaciones de procesamiento secuencial de las anteriores redes neuronales recurrentes (RNN). En su lugar, los Transformers analizan secuencias completas de datos simultáneamente, lo que permite una paralelización masiva y tiempos de entrenamiento significativamente más rápidos en hardware moderno como las GPU.
La innovación principal del Transformer es el mecanismo de autoatención. Esto permite al modelo ponderar la importancia de las diferentes partes de los datos de entrada en relación entre sí. Por ejemplo, en una frase, el modelo puede aprender que la palabra «banco» se relaciona más estrechamente con «dinero» que con «río» basándose en el contexto que la rodea.
Esta arquitectura suele constar de dos componentes principales:
En el ámbito de la visión por computadora (CV), los modelos suelen emplear una variante denominada Vision Transformer (ViT). En lugar de procesar tokens de texto, la imagen se divide en fragmentos de tamaño fijo (por ejemplo, 16x16 píxeles). Estos fragmentos se aplanan y se tratan como una secuencia, lo que permite al modelo capturar el «contexto global» —entender las relaciones entre partes distantes de una imagen— de forma más eficaz que una red neuronal convolucional (CNN) estándar .
Es importante distinguir la arquitectura Transformer de términos relacionados:
La versatilidad de los transformadores ha llevado a su adopción en diversas industrias:
Si bien las CNN han dominado tradicionalmente la detección de objetos, los modelos basados en transformadores, como el Real-Time Detection Transformer (RT-DETR), han surgido como potentes alternativas. RT-DETR la velocidad de las estructuras básicas de las CNN con la precisión de los cabezales de decodificación de los transformadores.
Sin embargo, los modelos Transformer puros pueden ser computacionalmente pesados. Para muchas aplicaciones periféricas, los modelos híbridos altamente optimizados como YOLO26, que integran mecanismos de atención eficientes con un rápido procesamiento convolucional, ofrecen un equilibrio superior entre velocidad y precisión. Puede gestionar el entrenamiento y la implementación de estos modelos fácilmente a través de Ultralytics , que agiliza el flujo de trabajo desde la anotación del conjunto de datos hasta la exportación del modelo.
El siguiente ejemplo muestra cómo realizar una inferencia utilizando un modelo basado en Transformer dentro del
ultralytics paquete. Este código carga un RT-DETR preentrenado y detecta objetos en una imagen.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
Para obtener más información sobre los fundamentos matemáticos, PyTorch sobre capas Transformer proporciona información técnica detallada, mientras que la guía de IBM sobre Transformers ofrece una perspectiva empresarial de alto nivel .