Glossário

SiLU (Sigmoid Linear Unit)

Descobre como a função de ativação SiLU (Swish) aumenta o desempenho da aprendizagem profunda em tarefas de IA como a deteção de objectos e a PNL.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Sigmoid Linear Unit (SiLU), também conhecida como função de ativação Swish, é um componente crucial nas redes neurais, influenciando a forma como essas redes aprendem e tomam decisões. É um tipo de função de ativação, um "portão" matemático em uma camada da rede neural que determina se um neurônio deve ser ativado ou não com base na entrada que recebe. A SiLU foi concebida para introduzir a não linearidade na rede, permitindo-lhe aprender padrões complexos nos dados, o que é essencial para tarefas de inteligência artificial e aprendizagem automática.

Relevância do SiLU

A importância da SiLU reside na sua capacidade de melhorar o desempenho dos modelos de aprendizagem profunda. Ao contrário de algumas funções de ativação anteriores, a SiLU não é monotónica, o que significa que a sua saída nem sempre aumenta à medida que a entrada aumenta. Essa caraterística permite que as redes neurais modelem relações mais complexas nos dados. Pesquisas, como o artigo original sobre o Swish de Google Brain, indicam que a substituição de ReLU por SiLU pode levar a uma maior precisão em modelos de aprendizagem profunda em várias tarefas, incluindo classificação de imagens e processamento de linguagem natural. Esta melhoria é particularmente notória em redes mais profundas, onde o comportamento não-monotónico do SiLU ajuda a mitigar problemas como o desaparecimento de gradientes, promovendo uma formação mais eficiente.

Aplicações da SiLU

A SiLU é utilizada numa vasta gama de aplicações de IA, particularmente em áreas onde o reconhecimento de padrões complexos é essencial. Eis alguns exemplos concretos:

SiLU vs. ReLU e outras funções de ativação

Embora a SiLU partilhe semelhanças com outras funções de ativação, também tem diferenças importantes. A ReLU (Unidade Linear Rectificada), por exemplo, é mais simples e computacionalmente menos dispendiosa, mas pode sofrer do problema da "ReLU moribunda", em que os neurónios ficam inactivos e deixam de aprender. A Leaky ReLU resolve este problema até certo ponto, mas a natureza não-monotónica e a curva suave da SiLU permitem-lhe frequentemente captar padrões de dados mais complexos do que a ReLU ou a Leaky ReLU. As funções Tanh (tangente hiperbólica) e Sigmoid, embora também não lineares, podem sofrer gradientes de desaparecimento em redes profundas, um problema que a SiLU ajuda a aliviar devido ao seu comportamento para entradas positivas. Esse equilíbrio de propriedades torna a SiLU uma opção poderosa e versátil nas arquiteturas modernas de redes neurais.

Lê tudo