Softmax

Descubra como o Softmax transforma pontuações em probabilidades para tarefas de classificação em IA, potenciando o reconhecimento de imagens e o sucesso da PNL.

Softmax é uma função matemática que converte um vetor de pontuações brutas de valor real, frequentemente designadas por logits, num vetor de probabilidades. No contexto da aprendizagem automática (ML), o Softmax é utilizado principalmente como uma função de ativação na camada de saída de uma rede neural. O seu papel fundamental é transformar as pontuações finais da rede numa distribuição de probabilidades significativa em várias classes mutuamente exclusivas. As probabilidades resultantes somam um, tornando-as fáceis de interpretar como a confiança do modelo para cada resultado possível.

Como funciona a Softmax

Imagine uma rede neural a tentar decidir a que categoria pertence uma imagem. A camada final da rede produz um conjunto de pontuações brutas para cada categoria. Uma pontuação mais elevada sugere que o modelo se inclina mais para essa categoria, mas estas pontuações não são padronizadas e podem ser difíceis de trabalhar diretamente.

A função Softmax pega nestas pontuações e executa dois passos principais:

Aplica a função exponencial a cada pontuação. Isto torna todos os valores positivos e exagera as diferenças entre eles - as pontuações mais elevadas tornam-se proporcionalmente muito maiores.
Ele normaliza essas pontuações exponenciadas dividindo cada uma delas pela sua soma. Esta etapa reduz os valores para que eles somem coletivamente 1,0, criando efetivamente uma distribuição de probabilidade.

O resultado final é uma lista de probabilidades, em que cada valor representa a probabilidade prevista pelo modelo de que a entrada pertença a uma classe específica. A classe com a maior probabilidade é então escolhida como a previsão final.

Aplicações em IA e aprendizagem automática

O Softmax é fundamental para qualquer modelo de aprendizagem profunda que efectue uma classificação multi-classe. A sua capacidade de fornecer um resultado claro e probabilístico torna-o inestimável em vários domínios.

Image Classification: This is the most common use case. A Convolutional Neural Network (CNN) trained on a dataset like ImageNet will use Softmax in its final layer. For an image of a pet, the model might output probabilities like {Dog: 0.9, Cat: 0.08, Rabbit: 0.02}, clearly indicating its prediction. Models like Ultralytics YOLO use this for classification tasks.
Processamento de linguagem natural (NLP): Na modelação de linguagem, o Softmax é utilizado para prever a palavra seguinte numa sequência. Um modelo como um Transformer calcula uma pontuação para cada palavra do seu vocabulário e utiliza o Softmax para converter essas pontuações em probabilidades. Este é um componente essencial dos modelos de linguagem de grande dimensão (LLM) e potencia aplicações desde a tradução automática à geração de texto.
Análise de Imagens Médicas: Ao analisar exames médicos para classificar diferentes tipos de tecidos ou identificar patologias (por exemplo, benignas, malignas ou saudáveis), um modelo utilizará o Softmax para atribuir uma probabilidade a cada diagnóstico, ajudando os médicos a tomar decisões mais informadas.
Aprendizagem por reforço: Na aprendizagem por reforço baseada em políticas, o Softmax pode ser utilizado para converter os valores aprendidos de diferentes acções numa política, que é uma distribuição de probabilidades sobre as acções possíveis que um agente pode realizar.

Softmax vs. Outras Funções de Ativação

É importante distinguir o Softmax de outras funções de ativação comuns, uma vez que têm objectivos diferentes.

Sigmoide: A função Sigmoide também produz valores entre 0 e 1, mas é utilizada para classificação binária (uma classe vs. outra) ou classificação multi-rótulo, em que uma entrada pode pertencer a várias classes ao mesmo tempo. Por exemplo, um filme pode ser classificado como "Comédia" e "Ação". Em contrapartida, o Softmax é utilizado para a classificação multi-classe, em que as classes são mutuamente exclusivas - um dígito manuscrito tem de ser um 7 ou um 8, mas não ambos.
ReLU (Unidade Linear Rectificada): A ReLU e suas variantes, como a Leaky ReLU e a SiLU, são usadas nas camadas ocultas de uma rede neural. A sua principal função é introduzir a não-linearidade, permitindo que o modelo aprenda padrões complexos nos dados. Não produzem probabilidades e não são utilizadas como funções de saída para classificação.
Tanh (Tangente hiperbólica): A Tanh reduz os valores a um intervalo entre -1 e 1. Tal como a ReLU, é utilizada em camadas ocultas, particularmente em arquitecturas de Redes Neuronais Recorrentes (RNN) mais antigas. Não é adequado para produzir resultados de probabilidade para tarefas de classificação.

Considerações práticas

Embora poderoso, o Softmax pode ser sensível a pontuações de entrada muito grandes, o que pode, por vezes, levar à instabilidade numérica (excesso ou falta de fluxo). Para resolver este problema, as estruturas modernas de aprendizagem profunda, como o PyTorch e o TensorFlow, implementam versões numericamente estáveis do Softmax nos bastidores.

O Softmax é quase sempre associado a uma função de perda específica denominada perda de entropia cruzada (ou perda de log) durante a formação do modelo. Esta combinação é altamente eficaz para treinar classificadores multi-classe. Compreender o comportamento do Softmax é crucial para o treino e interpretação eficazes do modelo, que pode ser gerido e monitorizado utilizando plataformas como o Ultralytics HUB para simplificar as experiências e implementações.

Softmax

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

Como funciona a Softmax

Aplicações em IA e aprendizagem automática

Softmax vs. Outras Funções de Ativação

Considerações práticas

Ler mais nesta categoria

O Google Genie 3 dá vida ao seu mundo 3D com IA

Explorar o GPT-5 da OpenAI: um sistema unificado inteligente

O que é a limiarização no processamento de imagens?

Junte-se à comunidade Ultralytics