Glossário

GELU (Unidade Linear de Erro Gaussiano)

Descubra como a função de ativação GELU melhora os modelos de transformadores como o GPT-4, aumentando o fluxo de gradiente, a estabilidade e a eficiência.

A GELU (Gaussian Error Linear Unit) é uma função de ativação de elevado desempenho que se tornou um padrão nas arquitecturas de redes neuronais mais avançadas, especialmente nos modelos Transformer. É conhecida pela sua curva suave e não monotónica, que ajuda os modelos a aprender padrões complexos de forma mais eficaz do que as funções mais antigas. Introduzida no documento"Gaussian Error Linear Units (GELUs)", ela combina propriedades de outras funções, como dropout e ReLU, para melhorar a estabilidade do treinamento e o desempenho do modelo.

Como funciona a GELU

Ao contrário da ReLU, que corta abruptamente todos os valores negativos, a GELU pondera as suas entradas com base na sua magnitude. Determina probabilisticamente se deve ativar um neurónio multiplicando a entrada pela função de distribuição cumulativa (CDF) da distribuição gaussiana padrão. Isso significa que as entradas têm maior probabilidade de serem "descartadas" (definidas como zero) quanto mais negativas forem, mas a transição é suave em vez de abrupta. Esta propriedade de regularização estocástica ajuda a evitar problemas como o problema do gradiente de desaparecimento e permite uma representação mais rica dos dados, o que é crucial para os modelos modernos de aprendizagem profunda.

GELU vs. Outras funções de ativação

A GELU oferece várias vantagens em relação a outras funções de ativação populares, o que levou à sua adoção generalizada.

  • GELU vs. ReLU: A principal diferença é a suavidade da GELU. Embora a ReLU seja computacionalmente simples, o seu canto agudo no zero pode por vezes levar ao problema da "morte da ReLU", em que os neurónios ficam permanentemente inactivos. A curva suave da GELU evita este problema, facilitando uma descida de gradiente mais estável e conduzindo frequentemente a uma melhor precisão final.
  • GELU vs. Leaky ReLU: O Leaky ReLU tenta corrigir o problema do ReLU moribundo, permitindo uma pequena inclinação negativa para entradas negativas. No entanto, a natureza não linear e curva da GELU fornece uma gama de ativação mais dinâmica que demonstrou superar a Leaky ReLU em muitas tarefas de aprendizagem profunda.
  • GELU vs. SiLU (Swish): A Sigmoid Linear Unit (SiLU), também conhecida como Swish, é muito semelhante à GELU. Ambas são funções suaves e não monotónicas que têm demonstrado um excelente desempenho. A escolha entre elas resume-se frequentemente a testes empíricos para uma arquitetura e um conjunto de dados específicos, embora algumas investigações sugiram que a SiLU pode ser ligeiramente mais eficiente em determinados modelos de visão por computador. Modelos como o Ultralytics YOLO utilizam frequentemente a SiLU devido ao seu equilíbrio entre desempenho e eficiência.

Aplicações em IA e aprendizagem profunda

A GELU é um componente-chave em muitos dos mais poderosos modelos de IA desenvolvidos até à data.

Implementação e utilização

A GELU está prontamente disponível em todas as principais estruturas de aprendizagem profunda, o que facilita a sua incorporação em modelos personalizados.

Os desenvolvedores podem criar, treinar e implantar modelos usando o GELU com plataformas como o Ultralytics HUB, que simplifica todo o ciclo de vida do MLOps, desde o aumento de dados até a implantação do modelo final.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência