Glossário

Sigmoide

Descubra o poder da função Sigmoid na IA. Saiba como permite a não linearidade, ajuda na classificação binária e impulsiona os avanços do ML!

A função sigmoide é uma função de ativação popular utilizada na aprendizagem automática (ML) e na aprendizagem profunda (DL). É uma função matemática que produz uma curva caraterística em forma de "S", ou sigmoidal. O seu objetivo principal é pegar em qualquer número de valor real e "esmagá-lo" num intervalo entre 0 e 1. Este resultado é frequentemente interpretado como uma probabilidade, o que torna a Sigmoid especialmente útil em modelos em que o objetivo é prever a probabilidade de um resultado. Ao introduzir a não-linearidade numa rede neural (NN), permite que o modelo aprenda padrões complexos a partir de dados que, de outra forma, seriam impossíveis com simples transformações lineares.

Papel e aplicações

A capacidade da função Sigmoide de mapear entradas para uma saída semelhante à probabilidade torna-a uma pedra angular para certos tipos de tarefas. Embora tenha se tornado menos comum nas camadas ocultas das redes neurais profundas modernas, ela continua sendo uma escolha padrão para a camada de saída em cenários específicos.

Principais aplicações

  • Classificação binária: Nos problemas de classificação binária, o objetivo é classificar uma entrada numa de duas classes (por exemplo, spam ou não spam, doença presente ou ausente). Uma função Sigmoide na camada de saída fornece um único valor entre 0 e 1, representando a probabilidade de a entrada pertencer à classe positiva. Por exemplo, um modelo de análise de imagens médicas pode utilizar a Sigmoide para produzir uma probabilidade de 0,9, indicando uma probabilidade de 90% de um tumor ser maligno.
  • Classificação multi-rótulo: Ao contrário da classificação multi-classe, em que uma entrada pertence apenas a uma classe, as tarefas multi-rótulo permitem que uma entrada seja associada a vários rótulos em simultâneo. Por exemplo, um modelo de deteção de objectos como o Ultralytics YOLO pode analisar uma imagem e identificar um "carro", um "peão" e um "semáforo" de uma só vez. Neste caso, uma função Sigmoide é aplicada a cada neurónio de saída de forma independente, dando a probabilidade de cada etiqueta possível. Pode saber mais sobre a evolução da deteção de objectos.
  • Mecanismos de bloqueio em RNNs: As funções sigmóides são um componente central nos mecanismos de gating das Redes Neurais Recorrentes (RNNs), como a Memória Longa de Curto Prazo (LSTM) e as Unidades Recorrentes Gated (GRU). Estas portas usam Sigmoid para controlar o fluxo de informação, decidindo que dados manter ou descartar em cada passo. Este mecanismo é crucial para a aprendizagem de dependências de longo prazo em dados sequenciais, como explicado neste post detalhado do blogue sobre a compreensão dos LSTMs.

Comparação com outras funções de ativação

É importante distinguir a função Sigmoide de outras funções de ativação para compreender quando a utilizar.

  • Softmax: A função Softmax é normalmente utilizada para problemas de classificação multi-classe, em que cada entrada pertence exatamente a uma das várias classes possíveis. Ao contrário da Sigmoide, que calcula probabilidades independentes para cada saída, a Softmax calcula uma distribuição de probabilidade em todas as classes que soma 1. Por exemplo, um modelo de classificação de dígitos manuscritos do conjunto de dados MNIST usaria o Softmax para atribuir uma única probabilidade a cada dígito de 0 a 9.
  • ReLU (Unidade Linear Rectificada): A ReLU tornou-se o padrão de facto para camadas ocultas em redes profundas. É computacionalmente mais eficiente e ajuda a mitigar o problema do gradiente de desaparecimento - um problema significativo com o Sigmoid, em que os gradientes se tornam extremamente pequenos durante a retropropagação, diminuindo a velocidade ou interrompendo o processo de aprendizagem. Pode ler mais sobre os desafios dos gradientes neste artigo do DeepLearning.AI.
  • SiLU (Unidade Linear Sigmoide): Também conhecida como Swish, a SiLU é uma função de ativação mais moderna derivada da Sigmoid. Tem frequentemente um desempenho melhor do que a ReLU em modelos mais profundos, incluindo arquitecturas avançadas de visão por computador. Os modelos Ultralytics utilizam frequentemente funções de ativação avançadas para obter um melhor equilíbrio entre velocidade e precisão.

Utilização moderna e disponibilidade

Embora menos comum nas camadas ocultas atualmente, o Sigmoide continua a ser uma escolha padrão para as camadas de saída em tarefas de classificação binária e multi-rótulo. Constitui também um componente essencial dos mecanismos de regulação em arquitecturas complexas que tratam dados sequenciais.

O Sigmoid está facilmente disponível em todas as principais quadros de aprendizagem profunda, incluindo PyTorch (como torch.sigmoid) e TensorFlow (como tf.keras.activations.sigmoid). Plataformas como HUB Ultralítico modelos de suporte que utilizam várias funções de ativação, permitindo aos utilizadores comboio e implantação soluções sofisticadas de visão por computador.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência