Reformador

Descubra o modelo Reformer: uma arquitetura inovadora de transformador optimizada para sequências longas com atenção LSH e camadas reversíveis.

O Reformer é um tipo eficiente de modelo Transformer desenvolvido por investigadores da Google AI. Foi concebido para lidar com sequências de dados extremamente longas, o que constitui um desafio significativo para as arquitecturas Transformer padrão devido à sua elevada utilização de memória e exigências computacionais. Através da introdução de novas técnicas, o Reformer pode processar comprimentos de contexto de até um milhão de palavras num único acelerador, tornando possível trabalhar com livros inteiros ou imagens de alta resolução. Esta eficiência é fundamental para o avanço das capacidades dos Modelos de Linguagem de Grande Porte (LLMs) e outras tarefas baseadas em sequências na Inteligência Artificial (IA).

Como é que o transformador atinge a eficiência

A eficiência do Reformer resulta de duas inovações principais que abordam os estrangulamentos no mecanismo de atenção padrão e na atribuição de memória:

Atenção ao Locality-Sensitive Hashing (LSH): Os transformadores tradicionais calculam uma pontuação de atenção para cada par de palavras numa sequência, o que se torna computacionalmente dispendioso à medida que o comprimento da sequência aumenta. O Reformer substitui esta atenção total por uma aproximação utilizando o Locality-Sensitive Hashing (LSH). Esta técnica agrupa palavras semelhantes em grupos e apenas calcula a atenção dentro destes grupos mais pequenos, reduzindo drasticamente a carga computacional. Funciona com base no princípio de que as palavras que estão próximas em termos de significado (ou espaço vetorial) são susceptíveis de serem agrupadas no mesmo grupo.
Camadas residuais reversíveis: Para economizar memória, as redes neurais padrão armazenam ativações de cada camada para serem usadas durante a retropropagação. Isso consome uma grande quantidade de memória, especialmente em modelos profundos. O Reformer utiliza camadas reversíveis, que permitem que as activações de qualquer camada sejam recalculadas a partir das activações da camada subsequente durante o treino. Isto elimina a necessidade de armazenar as activações na memória, reduzindo significativamente o espaço de memória e permitindo o treino de modelos muito maiores. Este conceito é detalhado no documento de investigação original do Reformer.

Aplicações

A capacidade do Reformer para processar sequências longas torna-o adequado para várias tarefas em Aprendizagem Automática (ML), particularmente no Processamento de Linguagem Natural (NLP) e não só:

Análise de documentos longos: Resumir ou responder a perguntas sobre livros inteiros, artigos de investigação extensos ou documentos jurídicos em que o contexto abrange milhares ou milhões de palavras. Por exemplo, um modelo Reformer pode ser utilizado para gerar um resumo de texto conciso de um relatório técnico com vários capítulos.
Genómica: Processamento de sequências longas de ADN ou de proteínas para análise e reconhecimento de padrões. Os dados genómicos podem consistir em milhares de milhões de pares de bases, o que faz do Reformer uma arquitetura ideal para identificar padrões ou mutações.
Processamento de meios de comunicação de longa duração: Análise de ficheiros áudio longos para reconhecimento de voz, geração de música com base em composições alargadas ou análise de vídeo de longa duração. Um exemplo é a transcrição eficiente de reuniões ou palestras de horas de duração.
Geração de imagens: Algumas abordagens tratam as imagens como sequências de pixéis, especialmente para imagens de alta resolução. O Reformer pode potencialmente tratar estas sequências muito longas para tarefas como a geração de texto para imagem.
Análise de séries temporais alargadas: Modelação de dados de séries temporais muito longas, como a previsão de tendências do mercado bolsista ao longo de décadas ou a análise de dados climáticos a longo prazo.

Embora modelos como o Ultralytics YOLO se concentrem na deteção eficiente de objectos em imagens, utilizando frequentemente Redes Neuronais Convolucionais (CNN) ou arquitecturas híbridas como o RT-DETR construído com estruturas como o PyTorch, os princípios de eficiência computacional e de memória explorados no Reformer são relevantes em todo o campo da Aprendizagem Profunda. A compreensão desses avanços ajuda a impulsionar a inovação para modelos de IA mais capazes e acessíveis. Plataformas como o Ultralytics HUB visam simplificar o desenvolvimento de IA e a implantação de modelos.

Comparação com outros modelos de sequência longa

O Reformer é um dos vários modelos concebidos para ultrapassar as limitações dos transformadores normais. É importante distingui-lo dos outros:

Longformer: Tal como o Reformer, o Longformer foi concebido para sequências longas. No entanto, utiliza um padrão de atenção diferente, combinando uma janela deslizante (atenção local) com alguns tokens de atenção global. Isto torna-o altamente eficaz para documentos onde o contexto local é mais importante, mas é menos flexível do que a abordagem baseada em hashing do Reformer para capturar relações distantes.
Transformer-XL: Este modelo introduz a recorrência na arquitetura do Transformer, permitindo que a informação flua de um segmento de texto para o seguinte. O Transformer-XL é particularmente eficaz para tarefas auto-regressivas, como a modelação de linguagem, mas não foi concebido para processar uma única entrada extremamente longa numa única passagem, como o Reformer ou o Longformer.
Transformador padrão: O modelo original do Transformer usa auto-atenção total, o que o torna altamente eficaz, mas impraticável para sequências com mais de alguns milhares de tokens devido à sua complexidade quadrática. A principal contribuição do Reformer é tornar viável um desempenho semelhante ao do Transformer para entradas muito mais longas. Pode encontrar mais comparações de modelos na nossa documentação.

Reformador

Treine os modelos YOLO da Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Como é que o transformador atinge a eficiência

Aplicações

Comparação com outros modelos de sequência longa

Ler mais nesta categoria

Pode a IA detetar acções humanas? Explorar o reconhecimento de actividades

Deteção de fracturas de fivela do pulso com visão por computador

Como saber se a fruta do dragão está madura utilizando a visão por computador

Junte-se à comunidade Ultralytics