Descobre como as arquitecturas Transformer revolucionam a IA, potenciando avanços em PNL, visão computacional e tarefas avançadas de ML.
Os transformadores representam uma arquitetura de rede neural fundamental que fez avançar significativamente os domínios da inteligência artificial (IA) e da aprendizagem automática (AM), especialmente no processamento da linguagem natural (PNL) e, cada vez mais, na visão computacional (VC). Introduzidas no influente artigo"Attention Is All You Need", processam dados sequenciais, como texto ou séries temporais, utilizando um mecanismo designado por auto-atenção. Isto permite que o modelo pondere dinamicamente a importância de diferentes partes da entrada, ultrapassando as principais limitações de arquitecturas mais antigas como as Redes Neuronais Recorrentes (RNN).
A inovação central dos Transformers é o mecanismo de auto-atenção. Ao contrário dos RNNs, que processam a entrada sequencialmente (um elemento após o outro) e podem ter dificuldades com sequências longas devido a problemas como o desaparecimento de gradientes, os Transformers podem considerar todas as partes da sequência de entrada simultaneamente. Essa capacidade de processamento paralelo acelera significativamente o treinamento em hardware moderno, como GPUs de empresas como NVIDIA.
Enquanto as redes neurais convolucionais (CNN) típicas se concentram em caraterísticas locais através de filtros de tamanho fixo que efectuam a convolução, o mecanismo de atenção permite aos transformadores captar dependências de longo alcance e relações contextuais em toda a entrada. Essa capacidade de entender o contexto global é crucial para tarefas que envolvem relações complexas, seja em texto ou em patches de imagem usados nos Transformadores de Visão (ViTs).
Os transformadores tornaram-se a base de muitos modelos de IA de última geração devido à sua eficácia na captura do contexto e no tratamento de sequências longas. A sua natureza paralelizável permitiu o treino de modelos maciços com milhares de milhões de parâmetros, como o GPT-3 e o GPT-4 desenvolvidos pela OpenAI, levando a avanços na IA generativa. Esta escalabilidade e desempenho tornaram os Transformers centrais para o progresso em várias tarefas de IA, impulsionando a inovação na investigação e na indústria. Muitos modelos populares de Transformers, como o BERT, estão prontamente disponíveis através de plataformas como Hugging Face e implementados com recurso a frameworks como o PyTorch e TensorFlowfrequentemente integrados em plataformas MLOps como o Ultralytics HUB.
Os transformadores são altamente versáteis e alimentam inúmeras aplicações de IA:
É útil distinguir os Transformers de outras arquitecturas de redes neuronais comuns: