Glosario

Modelos secuencia a secuencia

Descubre cómo los modelos secuencia a secuencia transforman las secuencias de entrada en secuencias de salida, potenciando tareas de IA como la traducción, los chatbots y el reconocimiento de voz.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los modelos Secuencia a Secuencia (Seq2Seq) son una clase de arquitecturas de aprendizaje profundo diseñadas para transformar una secuencia de entrada en una secuencia de salida, donde las longitudes de las secuencias de entrada y salida pueden diferir. Desarrollados inicialmente con Redes Neuronales Recurrentes (RNN), estos modelos constituyen la base de muchas tareas que implican datos secuenciales, sobre todo en el Procesamiento del Lenguaje Natural (PLN). La idea central es mapear secuencias como frases, clips de audio o datos de series temporales de un dominio a otro.

Cómo funcionan los modelos secuencia a secuencia

Los modelos Seq2Seq suelen constar de dos componentes principales: un codificador y un descodificador.

  1. Codificador: Esta parte procesa paso a paso toda la secuencia de entrada (por ejemplo, una frase en francés). En cada paso, actualiza su estado oculto interno. El estado oculto final, a menudo llamado "vector de contexto" o "vector de pensamiento", pretende captar un resumen o la esencia de la secuencia de entrada. Los primeros modelos Seq2Seq utilizaban RNNs o LSTMs para este fin, como se detalla en el artículo original sobre el Aprendizaje Secuencia a Secuencia.
  2. Decodificador: Este componente toma el vector de contexto final del codificador y genera la secuencia de salida paso a paso (por ejemplo, la frase traducida al English). Utiliza el vector de contexto como estado inicial y produce un elemento de la secuencia de salida en cada paso temporal, actualizando su propio estado oculto a medida que avanza.

Una innovación clave que mejoró significativamente el rendimiento de Seq2Seq, especialmente en secuencias más largas, fue el Mecanismo de Atención. La atención permite al descodificador volver la vista atrás a distintas partes de los estados ocultos de la secuencia de entrada (no sólo al vector de contexto final) al generar cada elemento de salida, sopesando su importancia dinámicamente, como proponen Bahdanau et al.

Relevancia y evolución

Los modelos Seq2Seq representaron un gran avance, sobre todo para tareas en las que las longitudes de entrada y salida son variables y la alineación es compleja. Proporcionaron un marco flexible para tratar diversos problemas de transformación de secuencias. Aunque fundamentales, los modelos Seq2Seq originales basados en RNN se enfrentaron a retos con dependencias de largo alcance. Esto condujo al desarrollo de los modelos Transformer, que se basan totalmente en mecanismos de atención y procesamiento paralelo, sustituyendo en gran medida a las RNN para obtener un rendimiento de vanguardia en muchas tareas de secuencias. Sin embargo, el concepto básico de codificador-decodificador sigue siendo influyente. Frameworks como PyTorch y TensorFlow proporcionan herramientas robustas para construir tanto los modelos tradicionales Seq2Seq como los modernos Transformer.

Aplicaciones en IA y ML

Los modelos Seq2Seq, incluidos sus modernos sucesores basados en Transformer, se utilizan en numerosas aplicaciones:

  • Traducción automática: Traducir un texto de una lengua de origen a una lengua de destino (por ejemplo, impulsando servicios como Google Translate).
  • Resumir textos: Generar resúmenes más breves a partir de artículos o documentos largos.
  • Chatbots y respuesta a preguntas: Generación de respuestas o respuestas conversacionales basadas en textos o preguntas introducidos. Muchos chatbots modernos aprovechan arquitecturas Transformer avanzadas como GPT-4.
  • Reconocimiento del habla: Conversión de secuencias de características de audio en secuencias de texto (transcripción).
  • Subtitulado de imágenes: Generación de descripciones textuales (secuencias de palabras) para imágenes de entrada. Aunque son distintas de las tareas de detección de objetos realizadas por modelos como Ultralytics YOLOimplica la asignación de una entrada visual a una salida secuencial. La investigación en instituciones como el Grupo de PNL de Stanford explora a menudo estas áreas.

Aunque los modelos Seq2Seq se asocian principalmente con la PNL, los mecanismos de atención inspirados en ellos también se están utilizando en la visión por ordenador, por ejemplo, en ciertos componentes de modelos de detección como RT-DETR o en los Transformadores de Visión. Puedes explorar varios modelos en plataformas como Hugging Face.

Leer todo