Descobre como os modelos sequência-a-sequência transformam as sequências de entrada em sequências de saída, potenciando tarefas de IA como a tradução, os chatbots e o reconhecimento de voz.
Os modelos Sequence-to-Sequence (Seq2Seq) são uma classe de arquitecturas de aprendizagem profunda concebidas para transformar uma sequência de entrada numa sequência de saída, em que os comprimentos das sequências de entrada e de saída podem ser diferentes. Inicialmente desenvolvidos usando Redes Neurais Recorrentes (RNNs), esses modelos formam a base para muitas tarefas que envolvem dados sequenciais, particularmente no Processamento de Linguagem Natural (PLN). A ideia central é mapear sequências como frases, clipes de áudio ou dados de séries temporais de um domínio para outro.
Os modelos Seq2Seq são normalmente constituídos por dois componentes principais: um codificador e um descodificador.
Uma inovação fundamental que melhorou significativamente o desempenho do Seq2Seq, especialmente para sequências mais longas, foi o mecanismo de atenção. A atenção permite que o descodificador olhe para diferentes partes dos estados ocultos da sequência de entrada (e não apenas para o vetor de contexto final) ao gerar cada elemento de saída, ponderando a sua importância de forma dinâmica, tal como proposto por Bahdanau et al.
Os modelos Seq2Seq representaram um grande avanço, particularmente para tarefas em que os comprimentos de entrada e saída são variáveis e o alinhamento é complexo. Eles forneceram uma estrutura flexível para lidar com diversos problemas de transformação de sequências. Embora fundamentais, os modelos Seq2Seq originais baseados em RNN enfrentaram desafios com dependências de longo alcance. Isto levou ao desenvolvimento de modelos Transformer, que dependem inteiramente de mecanismos de atenção e processamento paralelo, substituindo largamente as RNNs para um desempenho de ponta em muitas tarefas de sequência. No entanto, o conceito central de codificador-descodificador continua a ser influente. Estruturas como PyTorch e TensorFlow fornecem ferramentas robustas para a construção de modelos Seq2Seq tradicionais e modelos Transformer modernos.
Os modelos Seq2Seq, incluindo os seus sucessores modernos baseados no Transformer, são utilizados em inúmeras aplicações:
Embora os modelos Seq2Seq estejam principalmente associados à PNL, os mecanismos de atenção neles inspirados estão também a ser utilizados na visão computacional, por exemplo, em certos componentes de modelos de deteção como RT-DETR ou nos Transformadores de Visão. Podes explorar vários modelos em plataformas como Hugging Face.