GELU (Unidade Linear de Erro Gaussiano)

Descubra como a função de ativação GELU melhora os modelos de transformadores como o GPT-4, aumentando o fluxo de gradiente, a estabilidade e a eficiência.

A GELU (Gaussian Error Linear Unit) é uma função de ativação de elevado desempenho que se tornou um padrão nas arquitecturas de redes neuronais mais avançadas, especialmente nos modelos Transformer. É conhecida pela sua curva suave e não monotónica, que ajuda os modelos a aprender padrões complexos de forma mais eficaz do que as funções mais antigas. Introduzida no documento"Gaussian Error Linear Units (GELUs)", ela combina propriedades de outras funções, como dropout e ReLU, para melhorar a estabilidade do treinamento e o desempenho do modelo.

Como funciona a GELU

Ao contrário da ReLU, que corta abruptamente todos os valores negativos, a GELU pondera as suas entradas com base na sua magnitude. Determina probabilisticamente se deve ativar um neurónio multiplicando a entrada pela função de distribuição cumulativa (CDF) da distribuição gaussiana padrão. Isso significa que as entradas têm maior probabilidade de serem "descartadas" (definidas como zero) quanto mais negativas forem, mas a transição é suave em vez de abrupta. Esta propriedade de regularização estocástica ajuda a evitar problemas como o problema do gradiente de desaparecimento e permite uma representação mais rica dos dados, o que é crucial para os modelos modernos de aprendizagem profunda.

GELU vs. Outras funções de ativação

A GELU oferece várias vantagens em relação a outras funções de ativação populares, o que levou à sua adoção generalizada.

GELU vs. ReLU: A principal diferença é a suavidade da GELU. Embora a ReLU seja computacionalmente simples, o seu canto agudo no zero pode por vezes levar ao problema da "morte da ReLU", em que os neurónios ficam permanentemente inactivos. A curva suave da GELU evita este problema, facilitando uma descida de gradiente mais estável e conduzindo frequentemente a uma melhor precisão final.
GELU vs. Leaky ReLU: O Leaky ReLU tenta corrigir o problema do ReLU moribundo, permitindo uma pequena inclinação negativa para entradas negativas. No entanto, a natureza não linear e curva da GELU fornece uma gama de ativação mais dinâmica que demonstrou superar a Leaky ReLU em muitas tarefas de aprendizagem profunda.
GELU vs. SiLU (Swish): A Sigmoid Linear Unit (SiLU), também conhecida como Swish, é muito semelhante à GELU. Ambas são funções suaves e não monotónicas que têm demonstrado um excelente desempenho. A escolha entre elas resume-se frequentemente a testes empíricos para uma arquitetura e um conjunto de dados específicos, embora algumas investigações sugiram que a SiLU pode ser ligeiramente mais eficiente em determinados modelos de visão por computador. Modelos como o Ultralytics YOLO utilizam frequentemente a SiLU devido ao seu equilíbrio entre desempenho e eficiência.

Aplicações em IA e aprendizagem profunda

A GELU é um componente-chave em muitos dos mais poderosos modelos de IA desenvolvidos até à data.

Processamento de linguagem natural (PNL): A GELU é a função de ativação padrão nas redes feed-forward das arquitecturas Transformer. Isto inclui modelos seminais como o BERT e a série GPT, que são a base de quase todos os Modelos de Linguagem Grandes (LLMs) modernos. A sua capacidade de lidar com padrões linguísticos complexos torna-os ideais para tarefas como a tradução automática e o resumo de texto. Pode ler mais sobre estes modelos em recursos de organizações como a Hugging Face.
Visão por computador (CV): Na sequência do seu sucesso em PNL, a GELU foi adoptada em modelos de Transformador de Visão (ViT). Estes modelos aplicam a arquitetura Transformer a fragmentos de imagens para tarefas como a classificação de imagens e a deteção de objectos. O desempenho dos ViTs demonstrou a eficácia da GELU no processamento de informação visual, desafiando o domínio das Redes Neuronais Convolucionais (CNNs) tradicionais.

Implementação e utilização

A GELU está prontamente disponível em todas as principais estruturas de aprendizagem profunda, o que facilita a sua incorporação em modelos personalizados.

PyTorch: Implementado como torch.nn.GELU, com informações pormenorizadas no documentação oficial do PyTorch GELU.
TensorFlow: Disponível como tf.keras.activations.geluque está documentado no Documentação da API do TensorFlow.

Os desenvolvedores podem criar, treinar e implantar modelos usando o GELU com plataformas como o Ultralytics HUB, que simplifica todo o ciclo de vida do MLOps, desde o aumento de dados até a implantação do modelo final.

GELU (Unidade Linear de Erro Gaussiano)

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

Como funciona a GELU

GELU vs. Outras funções de ativação

Aplicações em IA e aprendizagem profunda

Implementação e utilização

Ler mais nesta categoria

Compreender o fabrico aditivo: Tecnologia e casos de utilização

Monitorização das operações aeroportuárias em terra com o Ultralytics YOLO11

A evolução e o futuro da robótica na indústria transformadora

Junte-se à comunidade Ultralytics