Descubra como a função de ativação GELU melhora os modelos de transformadores como o GPT-4, aumentando o fluxo de gradiente, a estabilidade e a eficiência.
A GELU (Gaussian Error Linear Unit) é uma função de ativação de elevado desempenho que se tornou um padrão nas arquitecturas de redes neuronais mais avançadas, especialmente nos modelos Transformer. É conhecida pela sua curva suave e não monotónica, que ajuda os modelos a aprender padrões complexos de forma mais eficaz do que as funções mais antigas. Introduzida no documento"Gaussian Error Linear Units (GELUs)", ela combina propriedades de outras funções, como dropout e ReLU, para melhorar a estabilidade do treinamento e o desempenho do modelo.
Ao contrário da ReLU, que corta abruptamente todos os valores negativos, a GELU pondera as suas entradas com base na sua magnitude. Determina probabilisticamente se deve ativar um neurónio multiplicando a entrada pela função de distribuição cumulativa (CDF) da distribuição gaussiana padrão. Isso significa que as entradas têm maior probabilidade de serem "descartadas" (definidas como zero) quanto mais negativas forem, mas a transição é suave em vez de abrupta. Esta propriedade de regularização estocástica ajuda a evitar problemas como o problema do gradiente de desaparecimento e permite uma representação mais rica dos dados, o que é crucial para os modelos modernos de aprendizagem profunda.
A GELU oferece várias vantagens em relação a outras funções de ativação populares, o que levou à sua adoção generalizada.
A GELU é um componente-chave em muitos dos mais poderosos modelos de IA desenvolvidos até à data.
A GELU está prontamente disponível em todas as principais estruturas de aprendizagem profunda, o que facilita a sua incorporação em modelos personalizados.
torch.nn.GELU
, com informações pormenorizadas no documentação oficial do PyTorch GELU.tf.keras.activations.gelu
que está documentado no Documentação da API do TensorFlow.Os desenvolvedores podem criar, treinar e implantar modelos usando o GELU com plataformas como o Ultralytics HUB, que simplifica todo o ciclo de vida do MLOps, desde o aumento de dados até a implantação do modelo final.