Descobre como a função de ativação SiLU (Swish) aumenta o desempenho da aprendizagem profunda em tarefas de IA como a deteção de objectos e a PNL.
A SiLU (Sigmoid Linear Unit), também conhecida como função Swish, é uma função de ativação utilizada em modelos de aprendizagem profunda (DL), em particular em redes neuronais (NN). Foi proposta por investigadores da Google e ganhou popularidade devido à sua eficácia na melhoria do desempenho do modelo em comparação com as funções de ativação tradicionais, como a ReLU e a Sigmoid. A SiLU é valorizada pela sua suavidade e propriedades não monotónicas, que podem ajudar no fluxo de gradiente e na otimização do modelo. Para obter uma compreensão mais ampla, consulte uma visão geral da função de ativação.
O SiLU é definido como o produto da entrada e da Sigmoide aplicada à entrada. Essencialmente, SiLU(x) = x * sigmoid(x)
. Esta formulação permite que a SiLU actue como um mecanismo de autorregulação, em que o componente sigmoide determina até que ponto a entrada linear x
passa por ele. Quando a saída sigmoide está próxima de 1, a entrada passa quase inalterada (semelhante à ReLU para valores positivos), e quando está próxima de 0, a saída é suprimida em direção a zero. Ao contrário da ReLU, a SiLU é suave e não monotónica (pode diminuir mesmo quando a entrada aumenta), propriedades derivadas da sua Detalhes da função sigmoide componente. O conceito foi pormenorizado no papel Swish original.
O SiLU oferece várias vantagens que contribuem para a sua eficácia em modelos de aprendizagem profunda:
A SiLU distingue-se de outras funções de ativação comuns:
max(0, x)
) e linear para valores positivos, mas sofre do problema do "dying ReLU", em que os neurónios podem ficar inactivos para entradas negativas. Vê um Explicação do ReLU. O SiLU é suave e evita este problema devido à sua saída não nula para valores negativos.O SiLU é versátil e tem sido aplicado com sucesso em vários domínios em que são utilizados modelos de aprendizagem profunda:
O SiLU está prontamente disponível nas principais estruturas de aprendizagem profunda:
torch.nn.SiLU
com o oficial Documentação PyTorch para SiLU disponível.tf.keras.activations.swish
ou tf.keras.activations.silu
documentado no Documentação TensorFlow para SiLU.Plataformas como o Ultralytics HUB oferecem suporte a modelos de treinamento e exploram várias opções de implantação para modelos que utilizam componentes avançados como o SiLU. A pesquisa contínua e os recursos de organizações como DeepLearning.AI ajudam os profissionais a aproveitar essas funções de forma eficaz.