Glossário

GELU (Unidade Linear de Erro Gaussiano)

Descobre como a função de ativação GELU melhora os modelos de transformadores como o GPT-4, aumentando o fluxo de gradiente, a estabilidade e a eficiência.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

No domínio da inteligência artificial e da aprendizagem automática, em particular nas redes neuronais, as funções de ativação desempenham um papel crucial para permitir que os modelos aprendam padrões complexos. A Unidade Linear de Erro Gaussiano, ou GELU, é uma dessas funções de ativação que ganhou destaque pelo seu desempenho em várias tarefas de aprendizagem profunda. Ela foi projetada para introduzir a não linearidade nas redes neurais, permitindo que elas modelem relações complexas nos dados.

O que é a GELU?

GELU, abreviação de Gaussian Error Linear Unit, é uma função de ativação para redes neurais. As funções de ativação decidem se um neurónio deve ser ativado ou não, calculando uma soma ponderada e adicionando-lhe um viés. O objetivo das funções de ativação é introduzir não linearidade na saída de um neurónio. A GELU é especificamente conhecida por ser uma aproximação suave da função de ativação ReLU (Rectified Linear Unit), mas com uma diferença fundamental: baseia-se na função de distribuição cumulativa da distribuição gaussiana. Isso torna a GELU probabilística e, em muitos casos, mais eficaz que a ReLU, especialmente em arquiteturas de redes neurais modernas.

Como funciona a GELU

A ideia central da GELU é regularizar aleatoriamente os neurónios, eliminando estocasticamente as entradas com base no seu valor. Em termos mais simples, para uma determinada entrada, a GELU pondera se ela é maior ou menor que zero, mas, ao contrário da ReLU, que é uma troca rígida, a GELU usa uma abordagem mais suave e probabilística. Essa natureza probabilística é derivada da função de distribuição cumulativa (CDF) de uma distribuição gaussiana padrão. A função pergunta essencialmente: "Dada uma entrada 'x', qual é a probabilidade de ser maior do que um valor retirado de uma distribuição gaussiana padrão?". Esta probabilidade é então escalonada pela entrada, resultando numa ativação suave e não linear. Essa transição suave em torno de zero é uma caraterística fundamental que diferencia o GELU do ReLU e suas variantes, como o Leaky ReLU, que têm uma curva acentuada em zero.

Vantagens da GELU

O GELU oferece várias vantagens que contribuem para a sua eficácia nas redes neuronais:

  • Suavidade: Ao contrário da ReLU, a GELU é suave em todo o seu domínio, inclusive em torno de zero. Essa suavidade ajuda na otimização baseada em gradiente, facilitando o treinamento de redes profundas e potencialmente levando a uma melhor generalização.
  • Não satura para entradas positivas: Semelhante ao ReLU, o GELU é não-saturante para entradas positivas, o que ajuda a mitigar o problema do gradiente de desaparecimento, permitindo o treinamento de redes mais profundas.
  • Sucesso empírico: A GELU tem demonstrado um forte desempenho empírico em vários modelos de última geração, particularmente em arquitecturas baseadas em transformadores, normalmente utilizadas no processamento de linguagem natural e, cada vez mais, na visão computacional. A sua abordagem probabilística à ativação tem demonstrado melhorar a precisão do modelo em muitas tarefas.
  • Atenuação do problema do "ReLU moribundo": Enquanto o ReLU pode sofrer do problema do "ReLU moribundo", em que os neurónios ficam inactivos e deixam de aprender, a natureza suave do GELU e a saída não nula para entradas negativas ajudam a atenuar este problema.

Aplicações do GELU

A GELU tem encontrado aplicações significativas em vários domínios da IA:

  • Processamento de linguagem natural (PNL): A GELU é utilizada nomeadamente em modelos avançados de NLP, incluindo o BERT (Bidirectional Encoder Representations from Transformers) e os seus sucessores. A sua capacidade de melhorar o desempenho dos modelos de transformadores tornou-o um elemento essencial na investigação e nas aplicações de ponta em PNL. Por exemplo, modelos como o GPT-3 e o GPT-4, que são utilizados em tarefas avançadas de geração de texto e tradução automática, utilizam frequentemente o GELU como função de ativação.
  • Visão por computador: Embora tradicionalmente o ReLU e as suas variantes fossem mais comuns na visão por computador, o GELU está a ser cada vez mais adotado em modelos de visão, especialmente os que incorporam arquitecturas Transformer como o Vision Transformer (ViT). Para tarefas como a classificação de imagens e a deteção de objectos, a GELU pode melhorar a capacidade do modelo para aprender caraterísticas visuais complexas. Por exemplo, os modelos utilizados na análise de imagens médicas estão a começar a tirar partido da GELU para melhorar a precisão do diagnóstico.
  • Reconhecimento da fala: Semelhante à PNL, a ativação suave da GELU provou ser benéfica em modelos de reconhecimento de voz, melhorando o tratamento de dados sequenciais e aumentando a precisão da conversão de voz em texto.

GELU vs ReLU

Embora tanto a GELU como a ReLU sejam funções de ativação não lineares concebidas para melhorar o desempenho das redes neuronais, diferem na sua abordagem:

  • ReLU (Unidade Linear Rectificada): A ReLU é uma função mais simples, produzindo a entrada diretamente se for positiva, e zero caso contrário. É computacionalmente eficiente, mas pode sofrer do problema "dying ReLU" e não é suave em zero. Podes explorar mais sobre a ReLU e funções de ativação relacionadas, como a Leaky ReLU, no nosso glossário.
  • GELU (Unidade Linear de Erro Gaussiano): GELU é uma função mais suave e complexa que usa uma abordagem probabilística baseada na distribuição Gaussiana. Tende a ter um melhor desempenho em modelos mais complexos, especialmente Transformers, fornecendo uma ativação mais matizada e mitigando problemas como "dying ReLU" devido à sua saída diferente de zero para entradas negativas.

Essencialmente, a ReLU é muitas vezes preferida pela sua simplicidade e eficiência computacional, enquanto a GELU é escolhida pelo seu potencial para oferecer uma melhor precisão e um treino mais suave, particularmente em arquitecturas profundas e complexas em que o desempenho é fundamental. A escolha entre eles depende muitas vezes da aplicação específica e da arquitetura da rede neural utilizada. Técnicas como o ajuste de hiperparâmetros podem ajudar a determinar a função de ativação ideal para um determinado modelo e tarefa.

Outros recursos

Para aprofundares os teus conhecimentos sobre a GELU e conceitos relacionados, considera explorar estes recursos:

  • Artigo GELU: Lê o artigo de investigação original sobre GELU, "Gaussian Error Linear Units (GELUs)" no arXiv para uma compreensão técnica aprofundada.
  • Funções de ativação em redes neuronais: Explora uma visão geral abrangente das funções de ativação, incluindo GELU, na Wikipedia.
  • Compreender as funções de ativação: Uma publicação detalhada no blogue que explica várias funções de ativação, incluindo GELU, em towardsdatascience.com.
  • Ultralytics Glossário: Para mais definições de termos de IA e de aprendizagem automática, visita o GlossárioUltralytics .
  • Ultralytics YOLOv8: Explora os modelos mais avançados que utilizam funções de ativação avançadas na Ultralytics YOLOv8 documentação.
Lê tudo