Glossário

Longformer

Descobre o Longformer, o modelo de transformador optimizado para sequências longas, oferecendo uma eficiência escalável para NLP, genómica e análise de vídeo.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O Longformer é um modelo especializado baseado no Transformer concebido para processar eficientemente sequências de texto muito longas, ultrapassando as limitações encontradas em modelos anteriores como o BERT (Bidirectional Encoder Representations from Transformers). Desenvolvido por investigadores do Allen Institute for AI (AI2), o Longformer aborda o desafio que os modelos Transformer padrão enfrentam com a complexidade computacional ao lidar com milhares de tokens, tornando-o adequado para tarefas que envolvem documentos longos. Esta capacidade é crucial para o avanço das aplicações de Processamento de Linguagem Natural (PLN) que requerem a compreensão do contexto em extensos períodos de texto.

Como funciona o Longformer

Os modelos padrão do Transformer usam um mecanismo completo de auto-atenção, onde cada token atende a todos os outros tokens. Embora poderoso, os requisitos de memória e computação deste mecanismo crescem quadraticamente com o comprimento da sequência, tornando-o impraticável para sequências com mais de algumas centenas de tokens. O Longformer introduz um padrão de atenção eficiente que escala linearmente com o comprimento da sequência. Usa principalmente uma combinação de:

  • Janela deslizante de atenção: Cada ficha atende apenas a um número fixo de fichas vizinhas de cada lado, criando uma janela de contexto local.
  • Janelas deslizantes dilatadas: Para aumentar o campo recetivo sem aumentar significativamente a computação, algumas camadas de atenção com janelas utilizam intervalos (dilatação), permitindo que as fichas atendam indiretamente a fichas mais distantes.
  • Atenção global: Um pequeno número de símbolos pré-selecionados é autorizado a atender a toda a sequência, e toda a sequência pode atendê-los. Isto é frequentemente usado para símbolos específicos cruciais para a tarefa, como o [CLS] em tarefas de classificação.

Este mecanismo de atenção modificado permite que o Longformer lide com entradas de até dezenas de milhares de tokens, significativamente mais longas do que o limite típico de 512 tokens de modelos como o BERT, mantendo um forte desempenho. Esta eficiência é vital para muitas tarefas de aprendizagem automática (ML) do mundo real.

Principais diferenças em relação a outros modelos

A principal distinção entre o Longformer e modelos como o BERT ou o GPT-2 reside no comprimento máximo da sequência que podem processar de forma eficiente. Enquanto que o BERT está limitado a 512 tokens, o Longformer consegue gerir sequências com um comprimento muito superior. Outros modelos concebidos para sequências longas, como o Reformer ou o Transformer-XL, utilizam técnicas diferentes, como hashing sensível à localidade ou mecanismos de recorrência, para obter eficiência. A abordagem do Longformer, detalhada no seu artigo de investigação original, fornece uma combinação flexível de atenção local e global adequada a várias tarefas a jusante após um ajuste fino.

Aplicações e casos de utilização

A capacidade do Longformer para processar documentos longos abre possibilidades para inúmeras tarefas de PNL que anteriormente eram difíceis ou exigiam soluções complexas, como a divisão de documentos.

  • Resposta a perguntas ao nível do documento: Encontra respostas em documentos extensos, como textos jurídicos, manuais técnicos ou relatórios extensos, em que a resposta pode depender de informações espalhadas por parágrafos ou páginas.
  • Sumarização de documentos longos: Gera resumos concisos de artigos inteiros, trabalhos de investigação ou capítulos de livros, compreendendo o contexto do documento completo.
  • Resolução de coreferências: Identifica as menções que se referem à mesma entidade em grandes extensões de texto.
  • Análise de literatura científica: Processa e extrai informação de artigos académicos densos. Plataformas como Hugging Face fornecem acesso fácil a modelos Longformer pré-treinados para estas aplicações através da sua biblioteca Transformers.

Importância na IA/ML

O Longformer representa um avanço significativo ao permitir que os modelos de aprendizagem profunda compreendam e raciocinem sobre textos longos. Ao ultrapassar o estrangulamento da complexidade quadrática dos Transformadores padrão, permite que os Modelos de Linguagem Grandes (LLMs) lidem com tarefas que envolvem documentos, livros e diálogos alargados de forma mais eficaz. Esta capacidade é essencial para aplicações que requerem uma compreensão contextual profunda, ultrapassando os limites do que a IA pode alcançar no processamento da linguagem humana encontrada em formatos extensos. Enquanto modelos como o Ultralytics YOLO se destacam em tarefas de visão por computador, como a deteção de objectos, o Longformer proporciona avanços análogos para o tratamento de dados textuais complexos e extensos. Ferramentas como o Ultralytics HUB simplificam a implantação e o gerenciamento de vários modelos de IA, incluindo potencialmente aqueles ajustados para tarefas específicas de PNL.

Lê tudo