Descobre como a função de ativação SiLU (Swish) aumenta o desempenho da aprendizagem profunda em tarefas de IA como a deteção de objectos e a PNL.
A Sigmoid Linear Unit (SiLU), também conhecida como função Swish, é uma função de ativação utilizada em redes neuronais (NN). As funções de ativação são componentes críticos que introduzem a não linearidade na rede, permitindo-lhe aprender padrões complexos a partir dos dados. A SiLU foi desenvolvida por investigadores do Google Brain e ganhou popularidade devido à sua eficácia em várias tarefas de aprendizagem profunda, superando frequentemente funções mais antigas como a ReLU em modelos mais profundos.
A importância da SiLU advém das suas propriedades únicas que podem levar a um melhor desempenho do modelo e à dinâmica do treino. Ao contrário da função ReLU, amplamente utilizada, a SiLU é suave e não monotónica. Isto significa que a sua saída não aumenta estritamente com a sua entrada, permitindo-lhe modelar funções mais complexas. A suavidade ajuda na otimização baseada em gradientes, evitando alterações abruptas durante o treino. A investigação, incluindo o artigo original do Swish, sugere que a substituição do ReLU pelo SiLU pode melhorar a precisão da classificação em conjuntos de dados difíceis como o ImageNet, particularmente em redes muito profundas. O seu mecanismo de autorregulação ajuda a regular o fluxo de informação, mitigando potencialmente questões como o problema do gradiente de desaparecimento.
A SiLU oferece um perfil diferente em comparação com outras funções de ativação comuns:
O SiLU é versátil e tem sido aplicado com sucesso em vários domínios em que são utilizados modelos de aprendizagem profunda:
O SiLU está prontamente disponível nas principais estruturas de aprendizagem profunda, como PyTorch (como torch.nn.SiLU
, documentado aqui) e TensorFlow (como tf.keras.activations.swish
, documentado aqui). Plataformas como Ultralytics HUB apoio formação e implantação de modelos que utilizam estes componentes avançados.