Glossário

SiLU (Sigmoid Linear Unit)

Descobre como a função de ativação SiLU (Swish) aumenta o desempenho da aprendizagem profunda em tarefas de IA como a deteção de objectos e a PNL.

A SiLU (Sigmoid Linear Unit), também conhecida como função Swish, é uma função de ativação utilizada em modelos de aprendizagem profunda (DL), em particular em redes neuronais (NN). Foi proposta por investigadores da Google e ganhou popularidade devido à sua eficácia na melhoria do desempenho do modelo em comparação com as funções de ativação tradicionais, como a ReLU e a Sigmoid. A SiLU é valorizada pela sua suavidade e propriedades não monotónicas, que podem ajudar no fluxo de gradiente e na otimização do modelo. Para obter uma compreensão mais ampla, consulte uma visão geral da função de ativação.

Como funciona a SiLU

O SiLU é definido como o produto da entrada e da Sigmoide aplicada à entrada. Essencialmente, SiLU(x) = x * sigmoid(x). Esta formulação permite que a SiLU actue como um mecanismo de autorregulação, em que o componente sigmoide determina até que ponto a entrada linear x passa por ele. Quando a saída sigmoide está próxima de 1, a entrada passa quase inalterada (semelhante à ReLU para valores positivos), e quando está próxima de 0, a saída é suprimida em direção a zero. Ao contrário da ReLU, a SiLU é suave e não monotónica (pode diminuir mesmo quando a entrada aumenta), propriedades derivadas da sua Detalhes da função sigmoide componente. O conceito foi pormenorizado no papel Swish original.

Vantagens da SiLU

O SiLU oferece várias vantagens que contribuem para a sua eficácia em modelos de aprendizagem profunda:

Suavidade: Ao contrário da ReLU, a SiLU é uma função suave, o que significa que a sua derivada é contínua. Essa suavidade pode ser benéfica para algoritmos de otimização baseados em gradiente durante a retropropagação, levando a um treinamento mais estável.
Não monotonicidade: A forma da função, que desce ligeiramente para entradas negativas antes de subir para zero, pode ajudar a rede a representar padrões mais complexos.
Evita o desaparecimento de gradientes: Embora as funções Sigmoid possam sofrer significativamente com o problema do gradiente de desaparecimento em redes profundas, a SiLU atenua esse problema, especialmente para entradas positivas, onde se comporta linearmente, semelhante à ReLU.
Desempenho melhorado: Estudos empíricos mostraram que a substituição do ReLU pelo SiLU pode levar a melhorias na precisão do modelo em várias tarefas e conjuntos de dados, particularmente em arquitecturas mais profundas.

Comparação com outras funções de ativação

A SiLU distingue-se de outras funções de ativação comuns:

ReLU: ReLU é computacionalmente mais simples (max(0, x)) e linear para valores positivos, mas sofre do problema do "dying ReLU", em que os neurónios podem ficar inactivos para entradas negativas. Vê um Explicação do ReLU. O SiLU é suave e evita este problema devido à sua saída não nula para valores negativos.
Sigmoide: O Sigmoid mapeia as entradas para um intervalo entre 0 e 1, mas sofre de saturação e desaparecimento de gradientes, o que o torna menos adequado para camadas ocultas em redes profundas em comparação com o SiLU.
ReLU com fugas: O Leaky ReLU aborda o problema do ReLU moribundo, permitindo um gradiente pequeno e diferente de zero para entradas negativas. O SiLU oferece um perfil diferente e mais suave.
GELU: A GELU (Gaussian Error Linear Unit) é outra função de ativação suave que tem um desempenho semelhante ao da SiLU. A SiLU é geralmente considerada computacionalmente um pouco mais simples do que a GELU.

Aplicações da SiLU

O SiLU é versátil e tem sido aplicado com sucesso em vários domínios em que são utilizados modelos de aprendizagem profunda:

Deteção de objectos: A SiLU é frequentemente utilizada nas arquitecturas dos modelos de deteção de objectos mais avançados, incluindo algumas versões relacionadas com Ultralytics YOLO. Por exemplo, a deteção de veículos e peões com precisão é fundamental para os sistemas de condução autónoma.
Classificação de imagens: Demonstrou um forte desempenho em redes neuronais convolucionais (CNN) para classificar imagens, contribuindo para uma maior precisão em conjuntos de dados de referência. Um exemplo é a classificação de diferentes tipos de tecido na análise de imagens médicas para ajudar no diagnóstico de doenças.
Processamento de linguagem natural (PNL): A SiLU também pode ser encontrada em modelos de NLP, melhorando o desempenho em tarefas como classificação de texto e outras aplicações de NLP.
Visão computacional geral (CV): As suas propriedades tornam-no um forte candidato a várias tarefas de CV para além da deteção e classificação.

Implementação

O SiLU está prontamente disponível nas principais estruturas de aprendizagem profunda:

PyTorch: Implementado como torch.nn.SiLUcom o oficial Documentação PyTorch para SiLU disponível.
TensorFlow: Disponível como tf.keras.activations.swish ou tf.keras.activations.siludocumentado no Documentação TensorFlow para SiLU.

Plataformas como o Ultralytics HUB oferecem suporte a modelos de treinamento e exploram várias opções de implantação para modelos que utilizam componentes avançados como o SiLU. A pesquisa contínua e os recursos de organizações como DeepLearning.AI ajudam os profissionais a aproveitar essas funções de forma eficaz.

SiLU (Sigmoid Linear Unit)

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Como funciona a SiLU

Vantagens da SiLU

Comparação com outras funções de ativação

Aplicações da SiLU

Implementação

Lê mais blogues

Junta-te à comunidade Ultralytics

SiLU (Sigmoid Linear Unit)

Treina os modelos YOLO simplesmentecom Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Como funciona a SiLU

Vantagens da SiLU

Comparação com outras funções de ativação

Aplicações da SiLU

Implementação

Lê mais blogues

Junta-te à comunidade Ultralytics

Treina os modelos YOLO simplesmente
com Ultralytics HUB