Glossário

SiLU (Sigmoid Linear Unit)

Descobre como a função de ativação SiLU (Swish) aumenta o desempenho da aprendizagem profunda em tarefas de IA como a deteção de objectos e a PNL.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Sigmoid Linear Unit (SiLU), também conhecida como função Swish, é uma função de ativação utilizada em redes neuronais (NN). As funções de ativação são componentes críticos que introduzem a não linearidade na rede, permitindo-lhe aprender padrões complexos a partir dos dados. A SiLU foi desenvolvida por investigadores do Google Brain e ganhou popularidade devido à sua eficácia em várias tarefas de aprendizagem profunda, superando frequentemente funções mais antigas como a ReLU em modelos mais profundos.

Relevância e vantagens

A importância da SiLU advém das suas propriedades únicas que podem levar a um melhor desempenho do modelo e à dinâmica do treino. Ao contrário da função ReLU, amplamente utilizada, a SiLU é suave e não monotónica. Isto significa que a sua saída não aumenta estritamente com a sua entrada, permitindo-lhe modelar funções mais complexas. A suavidade ajuda na otimização baseada em gradientes, evitando alterações abruptas durante o treino. A investigação, incluindo o artigo original do Swish, sugere que a substituição do ReLU pelo SiLU pode melhorar a precisão da classificação em conjuntos de dados difíceis como o ImageNet, particularmente em redes muito profundas. O seu mecanismo de autorregulação ajuda a regular o fluxo de informação, mitigando potencialmente questões como o problema do gradiente de desaparecimento.

Comparação com outras funções de ativação

A SiLU oferece um perfil diferente em comparação com outras funções de ativação comuns:

  • ReLU (Unidade Linear Rectificada): Mais simples e computacionalmente eficiente, mas pode sofrer do problema da "ReLU moribunda", em que os neurónios ficam inactivos. A ReLU é monotónica e não é suave no zero.
  • ReLU com vazamento: Uma melhoria do ReLU que aborda o problema do neurónio moribundo, permitindo um gradiente pequeno e diferente de zero para entradas negativas. Tal como o ReLU, o Leaky ReLU é monotónico.
  • GELU (Unidade Linear de Erro Gaussiano): Outra função de ativação suave, frequentemente utilizada em modelos de transformadores. A GELU pondera as entradas pela sua magnitude, em vez de apenas gatar pelo sinal, como a ReLU. A SiLU pode ser vista como uma alternativa suave que, às vezes, tem um desempenho melhor empiricamente. Podes encontrar uma visão geral da função de ativação para mais comparações.

Aplicações da SiLU

O SiLU é versátil e tem sido aplicado com sucesso em vários domínios em que são utilizados modelos de aprendizagem profunda:

  • Deteção de objectos: Modelos modernos de deteção de objectos, incluindo arquitecturas relacionadas com Ultralytics YOLOincorporam frequentemente SiLU ou funções de ativação avançadas semelhantes para melhorar a precisão da identificação e localização de objectos em imagens ou vídeos. Isto melhora o desempenho em aplicações que vão desde a condução autónoma à análise de retalho, contribuindo para uma melhor avaliação do modelo.
  • Processamento de linguagem natural (NLP): A SiLU pode ser utilizada em arquitecturas de transformadores e outros modelos de NLP para tarefas como a classificação de textos, tradução automática e análise de sentimentos. As suas propriedades podem ajudar o modelo a captar padrões linguísticos complexos, melhorando a compreensão e as capacidades de geração. Explora mais aplicações de NLP.
  • Classificação de imagens: Em redes neurais convolucionais profundas (CNNs) projetadas para classificação de imagens, a SiLU pode substituir as camadas ReLU, muitas vezes levando a uma melhor convergência e precisão final, especialmente à medida que a profundidade da rede aumenta. Isso é relevante ao trabalhar com conjuntos de dados como COCO.

O SiLU está prontamente disponível nas principais estruturas de aprendizagem profunda, como PyTorch (como torch.nn.SiLU, documentado aqui) e TensorFlow (como tf.keras.activations.swish, documentado aqui). Plataformas como Ultralytics HUB apoio formação e implantação de modelos que utilizam estes componentes avançados.

Lê tudo