Glossário

Transformador-XL

Descobre como o Transformer-XL revoluciona a modelação de sequências com inovações como a recorrência ao nível do segmento e o tratamento de contextos de longo alcance.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O Transformer-XL (Transformer-Extra Long) representa um avanço significativo em relação à arquitetura original do Transformer, concebido principalmente para lidar com dependências de longo alcance em dados sequenciais de forma mais eficaz. Desenvolvido por investigadores da Google AI e da Carnegie Mellon University, aborda a limitação de fragmentação de contexto inerente aos Transformers padrão quando processam sequências muito longas, o que é crucial para tarefas no Processamento de Linguagem Natural (PNL) e não só. Ao contrário dos Transformers tradicionais que processam segmentos de comprimento fixo de forma independente, o Transformer-XL introduz mecanismos para reutilizar informações entre segmentos, permitindo que o modelo construa uma compreensão coerente em contextos muito mais longos.

Conceitos fundamentais do transformador-XL

O Transformer-XL apresenta duas inovações fundamentais para ultrapassar as limitações dos transformadores padrão quando se trata de sequências longas:

  1. Recorrência em nível de segmento: Os transformadores padrão processam seqüências longas dividindo-as em segmentos de tamanho fixo. No entanto, as informações não podem fluir entre esses segmentos, levando à fragmentação do contexto. O Transformer-XL introduz um mecanismo de recorrência em que os estados ocultos computados para um segmento anterior são armazenados em cache e reutilizados como contexto ao processar o segmento atual. Isso permite que as informações se propaguem pelos segmentos, criando um contexto efetivo muito além do comprimento de um único segmento. Isto é concetualmente semelhante à forma como as Redes Neuronais Recorrentes (RNNs) mantêm o estado, mas integrado na estrutura de auto-atenção do Transformer.
  2. Codificações posicionais relativas: O Transformador original usa codificações posicionais absolutas para informar o modelo sobre a posição dos tokens dentro de uma seqüência. Ao aplicar a recorrência em nível de segmento, a reutilização de codificações absolutas torna-se problemática, pois o mesmo índice de posição apareceria em diferentes segmentos, causando ambigüidade. O Transformer-XL emprega codificações posicionais relativas, que definem posições com base na distância entre tokens em vez de sua localização absoluta. Isso torna a informação posicional consistente em diferentes segmentos e permite que o modelo se generalize melhor para comprimentos de seqüência variáveis durante a inferência.

Como funciona o Transformer-XL

Durante o treinamento e a inferência, o Transformer-XL processa as seqüências de entrada segmento por segmento. Para cada novo segmento, calcula as pontuações de atenção não apenas com base nos tokens dentro desse segmento, mas também usando os estados ocultos em cache do(s) segmento(s) anterior(es). Esta informação armazenada fornece o contexto histórico. A utilização de codificações posicionais relativas garante que o mecanismo de atenção interpreta corretamente as posições relativas dos símbolos, mesmo quando atende a símbolos do segmento anterior armazenado em cache. Esta abordagem aumenta significativamente o comprimento máximo possível da dependência que o modelo pode captar, muitas vezes muito maior do que o próprio comprimento do segmento, mantendo a eficiência computacional em comparação com o processamento de toda a sequência de uma só vez com um transformador padrão. Este método ajuda a evitar problemas como o problema do gradiente de desaparecimento em dependências longas.

Transformador-XL vs. Transformador padrão e modelos relacionados

A principal diferença reside no tratamento do comprimento e do contexto da sequência:

  • Comprimento do contexto: Os transformadores padrão têm um comprimento de contexto máximo fixo determinado pelo tamanho do segmento. O Transformer-XL pode capturar dependências com potencial de milhares de tokens devido ao seu mecanismo de recorrência.
  • Computação: O Transformer-XL pode ser significativamente mais rápido do que os Transformers padrão durante a avaliação de seqüências longas porque os cálculos para segmentos anteriores são reutilizados.
  • Memória: O armazenamento em cache dos estados ocultos requer memória adicional, mas evita o recálculo de representações para partes anteriores da sequência.
  • Modelos relacionados: Embora modelos como o BERT e o GPT (Generative Pre-trained Transformer) também se baseiem na arquitetura do Transformer, utilizam normalmente a abordagem padrão de contexto de comprimento fixo. O Transformer-XL visa especificamente a limitação dos contextos longos. Outros modelos, como o Longformer e o Reformer, também abordam sequências longas, mas utilizam técnicas diferentes, como padrões de atenção esparsos ou hashing sensível à localidade.

Relevância e aplicações

A capacidade do Transformer-XL para modelar dependências de longo alcance torna-o altamente eficaz para várias tarefas sequenciais, particularmente em PNL.

  • Modelação de linguagem: Obteve resultados de ponta em benchmarks de modelação de linguagem ao nível dos caracteres e das palavras, como o enwik8 e o WikiText-103, capturando um contexto mais longo do que os modelos anteriores. Esta melhor compreensão da estrutura da linguagem é vital para gerar textos coerentes e contextualmente relevantes.
  • Processamento de documentos longos: Tarefas que envolvem documentos longos, como resumos(Text Summarization), respostas a perguntas sobre artigos extensos, ou análise de livros inteiros ou bases de código, beneficiam significativamente da janela de contexto alargada do Transformer-XL. Por exemplo, um modelo do Transformer-XL poderia potencialmente gerar histórias fictícias com capítulos longos ou escrever módulos de software extensos(Geração de Texto).
  • Aprendizagem por reforço: As suas capacidades de memória melhoradas também encontraram aplicações em tarefas de aprendizagem por reforço que requerem planeamento a longo prazo.

Embora o Transformer-XL seja conhecido principalmente pela PNL, os princípios de tratamento eficiente de sequências longas são relevantes para a aprendizagem automática (ML), podendo influenciar arquitecturas para análise de séries temporais ou mesmo aspectos da visão computacional (CV) que lidam com dados de vídeo. Por exemplo, os próprios Transformers inspiraram os Vision Transformers (ViT) utilizados na análise de imagens. Plataformas como Hugging Face alojam implementações e modelos pré-treinados, facilitando a investigação e o desenvolvimento de aplicações. Podes explorar a investigação original no artigo "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context" (Modelos de linguagem atentos para além de um contexto de comprimento fixo). A compreensão destas arquitecturas avançadas ajuda a informar o desenvolvimento e o aperfeiçoamento de modelos em vários domínios, incluindo os que são geridos e implementados através de plataformas como o Ultralytics HUB.

Lê tudo