Glosario

Modelos secuencia a secuencia

Descubra cómo los modelos secuencia a secuencia transforman las secuencias de entrada en secuencias de salida, potenciando tareas de IA como la traducción, los chatbots y el reconocimiento de voz.

Los modelos de secuencia a secuencia (Seq2Seq) son una clase de modelos de aprendizaje profundo diseñados para transformar una secuencia de entrada en una secuencia de salida, donde las longitudes de la entrada y la salida pueden diferir. Esta flexibilidad los hace excepcionalmente potentes para una amplia gama de tareas en el Procesamiento del Lenguaje Natural (PLN) y más allá. La idea central fue introducida en artículos de investigadores de Google y del laboratorio de Yoshua Bengio, revolucionando campos como la traducción automática.

Cómo funcionan los modelos Seq2Seq

Los modelos Seq2Seq se basan en una arquitectura codificador-decodificador. Esta estructura permite al modelo manejar secuencias de longitud variable con eficacia.

  • El codificador: Este componente procesa toda la secuencia de entrada, como una frase en inglés. Lee la secuencia elemento por elemento (por ejemplo, palabra por palabra) y comprime la información en una representación numérica de longitud fija llamada vector de contexto o "vector de pensamiento". Tradicionalmente, el codificador es una Red Neuronal Recurrente (RNN) o una variante más avanzada como la Memoria Larga a Corto Plazo (LSTM), que es experta en capturar información secuencial.

  • El descodificador: Este componente toma el vector de contexto del codificador como entrada inicial. Su trabajo consiste en generar la secuencia de salida elemento a elemento. Por ejemplo, en una tarea de traducción, generaría la frase traducida palabra por palabra. La salida de cada paso se devuelve al descodificador en el paso siguiente, lo que le permite generar una secuencia coherente. Este proceso continúa hasta que se produce un token especial de fin de secuencia. Una innovación clave que ha mejorado significativamente el rendimiento de Seq2Seq es el mecanismo de atención, que permite al descodificador volver la vista atrás a distintas partes de la secuencia de entrada original mientras genera la salida.

Aplicaciones de los modelos Seq2Seq

La capacidad de asignar entradas de longitud variable a salidas de longitud variable hace que los modelos Seq2Seq sean muy versátiles.

  • Traducción automática: Es la aplicación por excelencia. Un modelo puede tomar una frase en un idioma (por ejemplo, "¿Cómo estás?") y traducirla a otro (por ejemplo, "Wie geht es Ihnen?"). Servicios como Google Translate han utilizado mucho estos principios.
  • Resumen de textos: Un modelo Seq2Seq puede leer un artículo o documento largo (secuencia de entrada) y generar un resumen conciso (secuencia de salida). Esto es útil para condensar grandes volúmenes de texto en ideas digeribles.
  • Chatbots e IA conversacional: los modelos pueden entrenarse para generar una respuesta pertinente y contextual (secuencia de salida) a la consulta o declaración de un usuario (secuencia de entrada).
  • Subtitulado de imágenes: Aunque se trata de visión por ordenador, el principio es similar. Una CNN actúa como codificador para procesar una imagen y crear un vector de contexto que un descodificador utiliza para generar una secuencia de texto descriptivo. Es un ejemplo de modelo multimodal.

Seq2Seq frente a otras arquitecturas

Aunque los modelos Seq2Seq basados en RNNs fueron pioneros, el campo ha evolucionado:

  • RNN estándar: Típicamente mapean secuencias a secuencias de la misma longitud o clasifican secuencias enteras, careciendo de la flexibilidad de la estructura codificador-decodificador para longitudes de salida variables.
  • Transformadores: Ahora dominan muchas tareas de PLN que antes manejaban modelos Seq2Seq basados en RNN. Utilizan la autoatención y las codificaciones posicionales en lugar de la recurrencia, lo que permite una mejor paralelización y una captura más eficaz de las dependencias de largo alcance. Sin embargo, el concepto subyacente de codificador-decodificador sigue siendo fundamental en muchos modelos basados en Transformer. Modelos como el RT-DETR de Baidu, apoyado por Ultralytics, incorporan componentes Transformer para la detección de objetos.
  • CNNs: Utilizadas principalmente para datos en forma de cuadrícula, como las imágenes (por ejemplo, en los modelos YOLO de Ultralytics para detección y segmentación), aunque a veces se adaptan para tareas de secuenciación.

Aunque Seq2Seq se refiere a menudo a la estructura codificador-decodificador basada en RNN, el principio general de asignar secuencias de entrada a secuencias de salida utilizando una representación intermedia sigue siendo fundamental para muchas arquitecturas modernas. Herramientas como PyTorch y TensorFlow proporcionan bloques de construcción para implementar modelos de secuencias tanto tradicionales como modernos. La gestión del proceso de formación puede agilizarse utilizando plataformas como Ultralytics HUB, que simplifica todo el proceso de despliegue del modelo.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles