Glossário

Transformador

Explora o impacto dos modelos Transformer na IA com Ultralytics. Descobre a sua arquitetura, componentes-chave e aplicações em PNL e visão.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O modelo Transformer tornou-se uma pedra angular no domínio da inteligência artificial, especialmente no processamento de linguagem natural (PNL) e, mais recentemente, em tarefas de visão computacional. Apresentada pela primeira vez no artigo "Attention is All You Need" de Vaswani et al. em 2017, a arquitetura Transformer alterou fundamentalmente a forma como as máquinas processam e compreendem a linguagem, tirando partido dos mecanismos de auto-atenção.

Compreender os transformadores

Os transformadores são projetados para lidar com dados seqüenciais com mais flexibilidade do que os modelos anteriores, como as redes neurais recorrentes (RNNs) e as redes neurais convolucionais (CNNs). Ao contrário das RNNs, que processam os dados sequencialmente, os Transformers permitem uma paralelização muito maior, reduzindo bastante o tempo de treinamento e melhorando o desempenho em grandes conjuntos de dados.

No centro do modelo Transformer está o mecanismo de auto-atenção. Este mecanismo permite que o modelo pondere a importância de diferentes palavras numa frase, oferecendo uma compreensão e geração de linguagem conscientes do contexto. Lê mais sobre auto-atenção na página do glossário Auto-atenção.

Componentes principais

  1. Estrutura codificador-descodificador: O Transformer baseia-se numa estrutura de codificador-descodificador, em que o codificador processa o texto de entrada e o descodificador gera a saída. Cada um consiste em várias camadas que contêm um mecanismo de auto-atenção e uma rede neural feed-forward.

  2. Codificação posicional: Como os Transformers não compreendem inerentemente a ordem das sequências, a codificação posicional é adicionada aos embeddings de entrada para ajudar a codificar a posição das palavras dentro da sequência.

  3. Mecanismo de atenção: No centro do Transformer está o mecanismo de atenção que atribui diferentes níveis de importância a cada parte da sequência de entrada, permitindo-lhe concentrar-se nas partes relevantes enquanto gera os resultados.

Aplicações no mundo real

Processamento de linguagem natural

Os transformadores permitiram grandes avanços na PNL. Os modelos baseados na arquitetura Transformer, como o GPT-3 e o BERT, estabeleceram novos padrões de referência em tarefas que vão desde a geração de texto à análise de sentimentos e à tradução automática. Estes modelos lidam com tarefas melhor do que os seus antecessores, compreendendo o contexto a um nível diferenciado.

  • O BERT é conhecido por tarefas que exigem a compreensão do contexto esquerdo e direito das palavras através do seu mecanismo de atenção bidirecional.

Visão computacional

Embora inicialmente concebidos para NLP, os transformadores estão a ser cada vez mais aplicados a tarefas de visão computacional. Modelos como o ViT (Vision Transformer) utilizam transformadores para obter resultados de ponta na classificação de imagens, segmentação e muito mais. Investiga o papel dos Transformers nos modelos de visão para compreender o seu impacto na visão computacional.

Para os interessados, o Ultralytics HUB oferece ferramentas para integrar modelos do Transformer numa série de projectos, melhorando o desempenho e a escalabilidade. Sabe mais sobre a implementação de modelos em aplicações do mundo real com o Ultralytics HUB.

Distinções dos modelos relacionados

  • RNNs e LSTMs: Ao contrário dos RNNs e LSTMs, os Transformers podem processar sequências em paralelo, o que leva a um treino mais rápido e a uma maior eficácia na captura de dependências de longo alcance.

  • CNNs: Embora as CNNs sejam tradicionalmente utilizadas para dados de imagem, os Transformers estão a revelar-se eficazes devido à sua capacidade de captar relações contextuais nos dados sem serem limitados por hierarquias espaciais.

Exploração adicional

Explora o potencial dos Transformers na IA lendo o artigo "Attention is All You Need" e literatura relacionada. Para saber mais sobre a evolução destas arquitecturas, considera a possibilidade de aprender sobre variações de modelos como o Transformer-XL e o Longformer, que abordam as limitações de sequência nos designs originais do Transformer.

Os transformadores continuam a impulsionar a inovação nos domínios da IA, com aplicações que se expandem da PNL para áreas como os cuidados de saúde, as finanças e muito mais. Mantém-te atualizado com o blogueUltralytics ' para conheceres as últimas tendências e avanços na tecnologia Transformer.

Lê tudo