Glossário

Softmax

Descubra como o Softmax transforma pontuações em probabilidades para tarefas de classificação em IA, potenciando o reconhecimento de imagens e o sucesso da PNL.

Softmax é uma função matemática que converte um vetor de pontuações brutas de valor real, frequentemente designadas por logits, num vetor de probabilidades. No contexto da aprendizagem automática (ML), o Softmax é utilizado principalmente como uma função de ativação na camada de saída de uma rede neural. O seu papel fundamental é transformar as pontuações finais da rede numa distribuição de probabilidades significativa em várias classes mutuamente exclusivas. As probabilidades resultantes somam um, tornando-as fáceis de interpretar como a confiança do modelo para cada resultado possível.

Como funciona a Softmax

Imagine uma rede neural a tentar decidir a que categoria pertence uma imagem. A camada final da rede produz um conjunto de pontuações brutas para cada categoria. Uma pontuação mais elevada sugere que o modelo se inclina mais para essa categoria, mas estas pontuações não são padronizadas e podem ser difíceis de trabalhar diretamente.

A função Softmax pega nestas pontuações e executa dois passos principais:

  1. Aplica a função exponencial a cada pontuação. Isto torna todos os valores positivos e exagera as diferenças entre eles - as pontuações mais elevadas tornam-se proporcionalmente muito maiores.
  2. Ele normaliza essas pontuações exponenciadas dividindo cada uma delas pela sua soma. Esta etapa reduz os valores para que eles somem coletivamente 1,0, criando efetivamente uma distribuição de probabilidade.

O resultado final é uma lista de probabilidades, em que cada valor representa a probabilidade prevista pelo modelo de que a entrada pertença a uma classe específica. A classe com a maior probabilidade é então escolhida como a previsão final.

Aplicações em IA e aprendizagem automática

O Softmax é fundamental para qualquer modelo de aprendizagem profunda que efectue uma classificação multi-classe. A sua capacidade de fornecer um resultado claro e probabilístico torna-o inestimável em vários domínios.

Softmax vs. Outras Funções de Ativação

É importante distinguir o Softmax de outras funções de ativação comuns, uma vez que têm objectivos diferentes.

  • Sigmoide: A função Sigmoide também produz valores entre 0 e 1, mas é utilizada para classificação binária (uma classe vs. outra) ou classificação multi-rótulo, em que uma entrada pode pertencer a várias classes ao mesmo tempo. Por exemplo, um filme pode ser classificado como "Comédia" e "Ação". Em contrapartida, o Softmax é utilizado para a classificação multi-classe, em que as classes são mutuamente exclusivas - um dígito manuscrito tem de ser um 7 ou um 8, mas não ambos.
  • ReLU (Unidade Linear Rectificada): A ReLU e suas variantes, como a Leaky ReLU e a SiLU, são usadas nas camadas ocultas de uma rede neural. A sua principal função é introduzir a não-linearidade, permitindo que o modelo aprenda padrões complexos nos dados. Não produzem probabilidades e não são utilizadas como funções de saída para classificação.
  • Tanh (Tangente hiperbólica): A Tanh reduz os valores a um intervalo entre -1 e 1. Tal como a ReLU, é utilizada em camadas ocultas, particularmente em arquitecturas de Redes Neuronais Recorrentes (RNN) mais antigas. Não é adequado para produzir resultados de probabilidade para tarefas de classificação.

Considerações práticas

Embora poderoso, o Softmax pode ser sensível a pontuações de entrada muito grandes, o que pode, por vezes, levar à instabilidade numérica (excesso ou falta de fluxo). Para resolver este problema, as estruturas modernas de aprendizagem profunda, como o PyTorch e o TensorFlow, implementam versões numericamente estáveis do Softmax nos bastidores.

O Softmax é quase sempre associado a uma função de perda específica denominada perda de entropia cruzada (ou perda de log) durante a formação do modelo. Esta combinação é altamente eficaz para treinar classificadores multi-classe. Compreender o comportamento do Softmax é crucial para o treino e interpretação eficazes do modelo, que pode ser gerido e monitorizado utilizando plataformas como o Ultralytics HUB para simplificar as experiências e implementações.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência