Glossário

Modelos de sequência para sequência

Descobre como os modelos sequência-a-sequência transformam as sequências de entrada em sequências de saída, potenciando tarefas de IA como a tradução, os chatbots e o reconhecimento de voz.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os modelos Sequence-to-Sequence (Seq2Seq) são uma classe de arquitecturas de aprendizagem profunda concebidas para transformar uma sequência de entrada numa sequência de saída, em que os comprimentos das sequências de entrada e de saída podem ser diferentes. Inicialmente desenvolvidos usando Redes Neurais Recorrentes (RNNs), esses modelos formam a base para muitas tarefas que envolvem dados sequenciais, particularmente no Processamento de Linguagem Natural (PLN). A ideia central é mapear sequências como frases, clipes de áudio ou dados de séries temporais de um domínio para outro.

Como funcionam os modelos sequência a sequência

Os modelos Seq2Seq são normalmente constituídos por dois componentes principais: um codificador e um descodificador.

  1. Codificador: Esta parte processa toda a sequência de entrada (por exemplo, uma frase em francês) passo a passo. Em cada passo, actualiza o seu estado oculto interno. O estado oculto final, frequentemente designado por "vetor de contexto" ou "vetor de pensamento", visa captar um resumo ou a essência da sequência de entrada. Os primeiros modelos Seq2Seq utilizavam RNNs ou LSTMs para este fim, tal como detalhado no documento original Sequence to Sequence Learning.
  2. Descodificador: Este componente recebe o vetor de contexto final do codificador e gera a sequência de saída passo a passo (por exemplo, a frase traduzida em English). Usa o vetor de contexto como estado inicial e produz um elemento da sequência de saída em cada passo de tempo, actualizando o seu próprio estado oculto à medida que avança.

Uma inovação fundamental que melhorou significativamente o desempenho do Seq2Seq, especialmente para sequências mais longas, foi o mecanismo de atenção. A atenção permite que o descodificador olhe para diferentes partes dos estados ocultos da sequência de entrada (e não apenas para o vetor de contexto final) ao gerar cada elemento de saída, ponderando a sua importância de forma dinâmica, tal como proposto por Bahdanau et al.

Relevância e evolução

Os modelos Seq2Seq representaram um grande avanço, particularmente para tarefas em que os comprimentos de entrada e saída são variáveis e o alinhamento é complexo. Eles forneceram uma estrutura flexível para lidar com diversos problemas de transformação de sequências. Embora fundamentais, os modelos Seq2Seq originais baseados em RNN enfrentaram desafios com dependências de longo alcance. Isto levou ao desenvolvimento de modelos Transformer, que dependem inteiramente de mecanismos de atenção e processamento paralelo, substituindo largamente as RNNs para um desempenho de ponta em muitas tarefas de sequência. No entanto, o conceito central de codificador-descodificador continua a ser influente. Estruturas como PyTorch e TensorFlow fornecem ferramentas robustas para a construção de modelos Seq2Seq tradicionais e modelos Transformer modernos.

Aplicações em IA e ML

Os modelos Seq2Seq, incluindo os seus sucessores modernos baseados no Transformer, são utilizados em inúmeras aplicações:

  • Tradução automática: Traduzir texto de um idioma de origem para um idioma de destino (por exemplo, alimentando serviços como o Google Translate).
  • Sumarização de texto: Gera resumos mais curtos a partir de artigos ou documentos longos.
  • Chatbots e resposta a perguntas: Gera respostas ou respostas de conversação com base em texto de entrada ou perguntas. Muitos chatbots modernos utilizam arquiteturas Transformer avançadas, como a GPT-4.
  • Reconhecimento de fala: Converte sequências de caraterísticas de áudio em sequências de texto (transcrição).
  • Legenda de imagens: Gera descrições textuais (sequências de palavras) para imagens de entrada. Embora distinta das tarefas de deteção de objectos realizadas por modelos como o Ultralytics YOLOenvolve o mapeamento da entrada visual para uma saída sequencial. A investigação em instituições como o Stanford NLP Group explora frequentemente estas áreas.

Embora os modelos Seq2Seq estejam principalmente associados à PNL, os mecanismos de atenção neles inspirados estão também a ser utilizados na visão computacional, por exemplo, em certos componentes de modelos de deteção como RT-DETR ou nos Transformadores de Visão. Podes explorar vários modelos em plataformas como Hugging Face.

Lê tudo