Sigmoide

Descubra o poder da função Sigmoid na IA. Saiba como permite a não linearidade, ajuda na classificação binária e impulsiona os avanços do ML!

A função sigmoide é uma função de ativação popular utilizada na aprendizagem automática (ML) e na aprendizagem profunda (DL). É uma função matemática que produz uma curva caraterística em forma de "S", ou sigmoidal. O seu objetivo principal é pegar em qualquer número de valor real e "esmagá-lo" num intervalo entre 0 e 1. Este resultado é frequentemente interpretado como uma probabilidade, o que torna a Sigmoid especialmente útil em modelos em que o objetivo é prever a probabilidade de um resultado. Ao introduzir a não-linearidade numa rede neural (NN), permite que o modelo aprenda padrões complexos a partir de dados que, de outra forma, seriam impossíveis com simples transformações lineares.

Papel e aplicações

A capacidade da função Sigmoide de mapear entradas para uma saída semelhante à probabilidade torna-a uma pedra angular para certos tipos de tarefas. Embora tenha se tornado menos comum nas camadas ocultas das redes neurais profundas modernas, ela continua sendo uma escolha padrão para a camada de saída em cenários específicos.

Principais aplicações

Classificação binária: Nos problemas de classificação binária, o objetivo é classificar uma entrada numa de duas classes (por exemplo, spam ou não spam, doença presente ou ausente). Uma função Sigmoide na camada de saída fornece um único valor entre 0 e 1, representando a probabilidade de a entrada pertencer à classe positiva. Por exemplo, um modelo de análise de imagens médicas pode utilizar a Sigmoide para produzir uma probabilidade de 0,9, indicando uma probabilidade de 90% de um tumor ser maligno.
Classificação multi-rótulo: Ao contrário da classificação multi-classe, em que uma entrada pertence apenas a uma classe, as tarefas multi-rótulo permitem que uma entrada seja associada a vários rótulos em simultâneo. Por exemplo, um modelo de deteção de objectos como o Ultralytics YOLO pode analisar uma imagem e identificar um "carro", um "peão" e um "semáforo" de uma só vez. Neste caso, uma função Sigmoide é aplicada a cada neurónio de saída de forma independente, dando a probabilidade de cada etiqueta possível. Pode saber mais sobre a evolução da deteção de objectos.
Mecanismos de bloqueio em RNNs: As funções sigmóides são um componente central nos mecanismos de gating das Redes Neurais Recorrentes (RNNs), como a Memória Longa de Curto Prazo (LSTM) e as Unidades Recorrentes Gated (GRU). Estas portas usam Sigmoid para controlar o fluxo de informação, decidindo que dados manter ou descartar em cada passo. Este mecanismo é crucial para a aprendizagem de dependências de longo prazo em dados sequenciais, como explicado neste post detalhado do blogue sobre a compreensão dos LSTMs.

Comparação com outras funções de ativação

É importante distinguir a função Sigmoide de outras funções de ativação para compreender quando a utilizar.

Softmax: A função Softmax é normalmente utilizada para problemas de classificação multi-classe, em que cada entrada pertence exatamente a uma das várias classes possíveis. Ao contrário da Sigmoide, que calcula probabilidades independentes para cada saída, a Softmax calcula uma distribuição de probabilidade em todas as classes que soma 1. Por exemplo, um modelo de classificação de dígitos manuscritos do conjunto de dados MNIST usaria o Softmax para atribuir uma única probabilidade a cada dígito de 0 a 9.
ReLU (Unidade Linear Rectificada): A ReLU tornou-se o padrão de facto para camadas ocultas em redes profundas. É computacionalmente mais eficiente e ajuda a mitigar o problema do gradiente de desaparecimento - um problema significativo com o Sigmoid, em que os gradientes se tornam extremamente pequenos durante a retropropagação, diminuindo a velocidade ou interrompendo o processo de aprendizagem. Pode ler mais sobre os desafios dos gradientes neste artigo do DeepLearning.AI.
SiLU (Unidade Linear Sigmoide): Também conhecida como Swish, a SiLU é uma função de ativação mais moderna derivada da Sigmoid. Tem frequentemente um desempenho melhor do que a ReLU em modelos mais profundos, incluindo arquitecturas avançadas de visão por computador. Os modelos Ultralytics utilizam frequentemente funções de ativação avançadas para obter um melhor equilíbrio entre velocidade e precisão.

Utilização moderna e disponibilidade

Embora menos comum nas camadas ocultas atualmente, o Sigmoide continua a ser uma escolha padrão para as camadas de saída em tarefas de classificação binária e multi-rótulo. Constitui também um componente essencial dos mecanismos de regulação em arquitecturas complexas que tratam dados sequenciais.

O Sigmoid está facilmente disponível em todas as principais quadros de aprendizagem profunda, incluindo PyTorch (como torch.sigmoid) e TensorFlow (como tf.keras.activations.sigmoid). Plataformas como HUB Ultralítico modelos de suporte que utilizam várias funções de ativação, permitindo aos utilizadores comboio e implantação soluções sofisticadas de visão por computador.

Sigmoide

Treine os modelos YOLO da Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Papel e aplicações

Principais aplicações

Comparação com outras funções de ativação

Utilização moderna e disponibilidade

Ler mais nesta categoria

Exatidão vs. precisão vs. recuperação na aprendizagem automática

Fiabilidade entre avaliadores: Definição, exemplos, cálculos

O Google Genie 3 dá vida ao seu mundo 3D com IA

Junte-se à comunidade Ultralytics