Descubra o Longformer, o modelo de transformador optimizado para sequências longas, que oferece uma eficiência escalável para NLP, genómica e análise de vídeo.
O Longformer é um modelo avançado baseado no Transformer, concebido para processar eficientemente documentos muito longos. Desenvolvido por investigadores do Allen Institute for AI, a sua principal inovação é um mecanismo de atenção que escala linearmente com o comprimento da sequência, ao contrário da escala quadrática dos modelos Transformer padrão, como o BERT. Esta eficiência torna possível executar tarefas complexas de Processamento de Linguagem Natural (PLN) em textos com milhares ou mesmo dezenas de milhares de tokens, o que é computacionalmente proibitivo para arquitecturas anteriores.
O cerne da eficiência do Longformer reside no seu padrão de atenção único, que substitui o mecanismo de auto-atenção completo de um Transformer padrão. Em vez de cada ficha estar atenta a todas as outras fichas, o Longformer combina dois tipos de atenção:
[CLS]
token para tarefas de classificação.Esta combinação proporciona um equilíbrio entre a eficiência computacional e a captura das dependências de longo alcance necessárias para a compreensão de documentos complexos. A investigação original está detalhada no documento"Longformer: The Long-Document Transformer".
A capacidade do Longformer para lidar com sequências longas abre possibilidades para muitas aplicações que anteriormente eram impraticáveis.
Os modelos Longformer pré-treinados estão amplamente disponíveis em plataformas como a Hugging Face, permitindo aos programadores adaptá-los a várias tarefas.
O Longformer é um dos vários modelos concebidos para ultrapassar as limitações dos transformadores standard para sequências longas.
Embora estes modelos de PNL sejam diferentes dos modelos de visão por computador (CV), como o Ultralytics YOLO, que se destacam em tarefas como a deteção de objectos, a procura de eficiência computacional é um tema comum. As inovações que reduzem a complexidade, como as do Longformer, são cruciais para tornar práticos os poderosos modelos de aprendizagem profunda para inferência em tempo real e implementação de modelos em hardware diversificado. O gerenciamento desses modelos avançados pode ser simplificado usando plataformas como o Ultralytics HUB.