Descobre como os Transformers revolucionam a PNL e a CV com auto-atenção, processamento paralelo e aplicações do mundo real como YOLO e ViT.
O Transformer é uma arquitetura de modelo de aprendizagem profunda introduzida em 2017 por Vaswani et al. no artigo seminal "Attention is All You Need". Revolucionou o campo do Processamento de Linguagem Natural (PNL) e está a ser cada vez mais aplicado a tarefas de Visão Computacional (CV). Ao contrário de modelos anteriores que se baseavam em Redes Neurais Recorrentes (RNNs) ou Redes Neurais Convolucionais (CNNs), os Transformers dependem apenas de um mecanismo de atenção para desenhar dependências globais entre entrada e saída.
A arquitetura do Transformer baseia-se numa estrutura de codificador-descodificador. O codificador processa a sequência de entrada e gera uma representação contextualizada, enquanto o descodificador utiliza esta representação para produzir a sequência de saída. A principal inovação é o mecanismo de auto-atenção, que permite ao modelo ponderar a importância de cada parte da sequência de entrada relativamente a todas as outras partes. Este mecanismo permite que o modelo capture dependências de longo alcance de forma mais eficaz do que as RNNs.
Os transformadores processam os dados de entrada em paralelo, ao contrário das RNNs, que processam os dados sequencialmente. Este processamento paralelo é possível graças ao mecanismo de auto-atenção, que calcula simultaneamente as relações entre todas as palavras de uma frase. O modelo também incorpora codificações posicionais para reter informações sobre a ordem das palavras na sequência de entrada. O codificador e o descodificador são constituídos por várias camadas, cada uma contendo redes neuronais de auto-atenção e de feed-forward. Esta estrutura em camadas permite que o modelo aprenda padrões e representações complexas a partir dos dados.
Os transformadores oferecem várias vantagens em relação às arquitecturas anteriores. A sua capacidade de processar dados em paralelo reduz significativamente o tempo de formação. O mecanismo de auto-atenção permite-lhes capturar dependências de longo alcance de forma mais eficaz, levando a um melhor desempenho em tarefas que exigem uma compreensão do contexto. Além disso, os Transformers são altamente escaláveis e podem ser treinados em grandes conjuntos de dados, o que os torna adequados para uma vasta gama de aplicações. Os modelos Ultralytics YOLO modelos suportam um modelo de transformador concebido para a deteção de objectos.
Os transformadores têm sido aplicados com êxito a várias tarefas de PNL, incluindo a tradução automática, a sumarização de textos e a resposta a perguntas. Por exemplo, o BERT (Bidirectional Encoder Representations from Transformers) daGoogle e o GPT (Generative Pre-trained Transformer) da OpenAI baseiam-se ambos na arquitetura do Transformador e obtiveram resultados de ponta em numerosos parâmetros de referência de PNL. No domínio da visão por computador, modelos como o Vision Transformer (ViT) demonstraram que os transformadores podem superar as CNN em tarefas de classificação de imagens, tratando as imagens como sequências de fragmentos.
Em comparação com as RNNs, as Transformers são excelentes na captura de dependências de longo alcance e podem ser treinadas muito mais rapidamente devido à sua capacidade de processamento paralelo. Enquanto as CNNs são eficientes no processamento de dados em grelha, como imagens, os Transformers são mais flexíveis e podem lidar com sequências de comprimento variável, o que os torna adequados tanto para tarefas de PNL como de CV. Ao contrário dos modelos de linguagem de grande dimensão (LLM), que se centram principalmente na geração e compreensão de texto, os transformadores têm uma gama de aplicações mais vasta, incluindo tarefas de linguagem e de visão.
A arquitetura do Transformador continua a evoluir, com investigação em curso destinada a melhorar a sua eficiência e a alargar as suas aplicações. Inovações como a atenção esparsa e a atenção linear visam reduzir o custo computacional da auto-atenção, tornando viável a aplicação de Transformers a sequências ainda mais longas. Os investigadores estão também a explorar formas de combinar os pontos fortes dos Transformers com outras arquitecturas, como as CNN, para criar modelos híbridos que se destacam em várias tarefas. À medida que o campo progride, espera-se que os Transformers desempenhem um papel cada vez mais importante no avanço da Inteligência Artificial (IA) e da Aprendizagem Automática (AM). Podes explorar mais sobre estes avanços no blogueUltralytics .