Descubre cómo los Transformadores revolucionan la PNL y la CV con la autoatención, el procesamiento paralelo y aplicaciones del mundo real como YOLO y ViT.
El Transformador es una arquitectura de modelo de aprendizaje profundo introducida en 2017 por Vaswani et al. en el artículo seminal "Attention is All You Need" (La atención es todo lo que necesitas). Ha revolucionado el campo del Procesamiento del Lenguaje Natural (PLN ) y se aplica cada vez más a tareas de Visión por Computador (VC). A diferencia de los modelos anteriores que se basaban en Redes Neuronales Recurrentes (RNN) o Redes Neuronales Convolucionales (CNN), los Transformadores se basan únicamente en un mecanismo de atención para trazar dependencias globales entre la entrada y la salida.
La arquitectura Transformer se basa en una estructura codificador-decodificador. El codificador procesa la secuencia de entrada y genera una representación contextualizada, mientras que el decodificador utiliza esta representación para producir la secuencia de salida. La innovación clave es el mecanismo de autoatención, que permite al modelo sopesar la importancia de cada parte de la secuencia de entrada con respecto a todas las demás partes. Este mecanismo permite al modelo captar las dependencias de largo alcance con más eficacia que las RNN.
Los Transformadores procesan los datos de entrada en paralelo, a diferencia de las RNN, que procesan los datos secuencialmente. Este procesamiento paralelo es posible gracias al mecanismo de autoatención, que computa simultáneamente las relaciones entre todas las palabras de una frase. El modelo también incorpora codificaciones posicionales para retener información sobre el orden de las palabras en la secuencia de entrada. El codificador y el descodificador constan de varias capas, cada una de las cuales contiene redes neuronales de autoatención y de alimentación hacia delante. Esta estructura en capas permite al modelo aprender patrones y representaciones complejas a partir de los datos.
Los transformadores ofrecen varias ventajas sobre las arquitecturas anteriores. Su capacidad para procesar datos en paralelo reduce significativamente el tiempo de entrenamiento. El mecanismo de autoatención les permite captar con mayor eficacia las dependencias de largo alcance, lo que se traduce en un mejor rendimiento en tareas que requieren una comprensión del contexto. Además, los Transformadores son altamente escalables y pueden entrenarse con grandes conjuntos de datos, lo que los hace adecuados para una amplia gama de aplicaciones. Los modelos Ultralytics YOLO apoyan un modelo de Transformador diseñado para la detección de objetos.
Los transformadores se han aplicado con éxito a diversas tareas de PLN, como la traducción automática, el resumen de textos y la respuesta a preguntas. Por ejemplo, el BERT (Bidirectional Encoder Representations from Transformers) deGoogle y el GPT (Generative Pre-trained Transformer) de OpenAI se basan en la arquitectura Transformer y han obtenido resultados punteros en numerosas pruebas de PNL. En visión por ordenador, modelos como el Transformador de Visión (ViT) han demostrado que los Transformadores pueden superar a las CNN en tareas de clasificación de imágenes al tratarlas como secuencias de parches.
En comparación con las RNN, los Transformadores destacan en la captura de dependencias de largo alcance y pueden entrenarse mucho más rápido gracias a su capacidad de procesamiento en paralelo. Mientras que las CNN son eficientes en el procesamiento de datos de tipo reticular, como las imágenes, los Transformadores son más flexibles y pueden manejar secuencias de longitud variable, lo que los hace adecuados tanto para tareas de PNL como de CV. A diferencia de los Grandes Modelos del Lenguaje (LLM), que se centran principalmente en generar y comprender texto, los Transformadores tienen un campo de aplicación más amplio, que incluye tanto tareas lingüísticas como de visión.
La arquitectura Transformer sigue evolucionando, con investigaciones en curso destinadas a mejorar su eficacia y ampliar sus aplicaciones. Innovaciones como la atención dispersa y la atención lineal pretenden reducir el coste computacional de la autoatención, haciendo factible la aplicación de Transformers a secuencias aún más largas. Los investigadores también están explorando formas de combinar los puntos fuertes de los Transformadores con otras arquitecturas, como las CNN, para crear modelos híbridos que destaquen en diversas tareas. A medida que progrese este campo, se espera que los Transformadores desempeñen un papel cada vez más importante en el avance de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM). Puedes obtener más información sobre estos avances en el Blog deUltralytics .