Glossário

SiLU (Sigmoid Linear Unit)

Descobre como a função de ativação SiLU (Swish) aumenta o desempenho da aprendizagem profunda em tarefas de IA como a deteção de objectos e a PNL.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A SiLU (Sigmoid Linear Unit), também conhecida como função Swish, é uma função de ativação utilizada em modelos de aprendizagem profunda (DL), em particular em redes neuronais (NN). Foi proposta por investigadores da Google e ganhou popularidade devido à sua eficácia na melhoria do desempenho do modelo em comparação com as funções de ativação tradicionais, como a ReLU e a Sigmoid. A SiLU é valorizada pela sua suavidade e propriedades não monotónicas, que podem ajudar no fluxo de gradiente e na otimização do modelo. Para obter uma compreensão mais ampla, consulte uma visão geral da função de ativação.

Como funciona a SiLU

O SiLU é definido como o produto da entrada e da Sigmoide aplicada à entrada. Essencialmente, SiLU(x) = x * sigmoid(x). Esta formulação permite que a SiLU actue como um mecanismo de autorregulação, em que o componente sigmoide determina até que ponto a entrada linear x passa por ele. Quando a saída sigmoide está próxima de 1, a entrada passa quase inalterada (semelhante à ReLU para valores positivos), e quando está próxima de 0, a saída é suprimida em direção a zero. Ao contrário da ReLU, a SiLU é suave e não monotónica (pode diminuir mesmo quando a entrada aumenta), propriedades derivadas da sua Detalhes da função sigmoide componente. O conceito foi pormenorizado no papel Swish original.

Vantagens da SiLU

O SiLU oferece várias vantagens que contribuem para a sua eficácia em modelos de aprendizagem profunda:

  • Suavidade: Ao contrário da ReLU, a SiLU é uma função suave, o que significa que a sua derivada é contínua. Essa suavidade pode ser benéfica para algoritmos de otimização baseados em gradiente durante a retropropagação, levando a um treinamento mais estável.
  • Não monotonicidade: A forma da função, que desce ligeiramente para entradas negativas antes de subir para zero, pode ajudar a rede a representar padrões mais complexos.
  • Evita o desaparecimento de gradientes: Embora as funções Sigmoid possam sofrer significativamente com o problema do gradiente de desaparecimento em redes profundas, a SiLU atenua esse problema, especialmente para entradas positivas, onde se comporta linearmente, semelhante à ReLU.
  • Desempenho melhorado: Estudos empíricos mostraram que a substituição do ReLU pelo SiLU pode levar a melhorias na precisão do modelo em várias tarefas e conjuntos de dados, particularmente em arquitecturas mais profundas.

Comparação com outras funções de ativação

A SiLU distingue-se de outras funções de ativação comuns:

  • ReLU: ReLU é computacionalmente mais simples (max(0, x)) e linear para valores positivos, mas sofre do problema do "dying ReLU", em que os neurónios podem ficar inactivos para entradas negativas. Vê um Explicação do ReLU. O SiLU é suave e evita este problema devido à sua saída não nula para valores negativos.
  • Sigmoide: O Sigmoid mapeia as entradas para um intervalo entre 0 e 1, mas sofre de saturação e desaparecimento de gradientes, o que o torna menos adequado para camadas ocultas em redes profundas em comparação com o SiLU.
  • ReLU com fugas: O Leaky ReLU aborda o problema do ReLU moribundo, permitindo um gradiente pequeno e diferente de zero para entradas negativas. O SiLU oferece um perfil diferente e mais suave.
  • GELU: A GELU (Gaussian Error Linear Unit) é outra função de ativação suave que tem um desempenho semelhante ao da SiLU. A SiLU é geralmente considerada computacionalmente um pouco mais simples do que a GELU.

Aplicações da SiLU

O SiLU é versátil e tem sido aplicado com sucesso em vários domínios em que são utilizados modelos de aprendizagem profunda:

Implementação

O SiLU está prontamente disponível nas principais estruturas de aprendizagem profunda:

Plataformas como o Ultralytics HUB oferecem suporte a modelos de treinamento e exploram várias opções de implantação para modelos que utilizam componentes avançados como o SiLU. A pesquisa contínua e os recursos de organizações como DeepLearning.AI ajudam os profissionais a aproveitar essas funções de forma eficaz.

Lê tudo