Glossário

Função de ativação

Descobre o papel das funções de ativação nas redes neuronais, os seus tipos e aplicações reais em IA e aprendizagem automática.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

As funções de ativação são componentes fundamentais das redes neuronais artificiais (RNA), actuando como portas matemáticas em cada neurónio (ou nó). Elas determinam se um neurônio deve ser ativado ("disparar") com base na soma ponderada de suas entradas mais um viés. Esse mecanismo permite que a rede introduza não-linearidade no modelo, o que é crucial para aprender padrões e relações complexas dentro dos dados que os modelos lineares simples não conseguem captar. Sem funções de ativação não lineares, mesmo uma rede neural profunda comportar-se-ia como um modelo linear de camada única, limitando seriamente a sua capacidade de aprendizagem.

O papel da não-linearidade

O papel principal de uma função de ativação é introduzir a não-linearidade na saída de um neurónio. Os dados do mundo real, como imagens, texto e som, contêm padrões intrincados e não lineares. Para os modelar eficazmente, os modelos de aprendizagem profunda requerem componentes que possam aproximar estas relações não lineares. As funções de ativação transformam a combinação linear de entradas dentro de um neurônio em uma saída não linear, permitindo que a rede aprenda mapeamentos complexos entre entradas e saídas durante o processo de treinamento.

Funções de ativação comuns

Na prática, são utilizados vários tipos de funções de ativação, cada uma com as suas próprias caraterísticas:

  • Sigmoide: Esta função mapeia qualquer valor de entrada para uma saída entre 0 e 1. Historicamente, era popular, especialmente em camadas de saída para tarefas de classificação binária, mas pode sofrer com o problema do gradiente de desaparecimento durante a retropropagação.
  • Tanh (Tangente hiperbólica): Semelhante à Sigmoide, mas mapeia entradas para saídas entre -1 e 1. O fato de ser centrado em zero geralmente ajuda na convergência em comparação com a Sigmoide, embora também enfrente problemas de gradiente de desaparecimento.
  • ReLU (Unidade Linear Retificada): Emite a entrada diretamente se for positiva, e zero caso contrário. É computacionalmente eficiente e amplamente utilizado em camadas ocultas de CNNs e outras redes. Variantes como a Leaky ReLU resolvem o problema da "dying ReLU", em que os neurónios podem ficar inactivos.
  • Softmax: Freqüentemente usado na camada de saída de modelos de classificação multiclasse. Converte um vetor de pontuações brutas (logits) em uma distribuição de probabilidade, em que cada valor está entre 0 e 1, e todos os valores somam 1.
  • SiLU (Sigmoid Linear Unit): Uma função suave e não-monotónica (também conhecida como Swish) que muitas vezes tem um bom desempenho em modelos mais profundos. É usada em arquiteturas como a EfficientNet e alguns modelosYOLO Ultralytics .
  • GELU (Unidade Linear de Erro Gaussiano): Comumente encontrada em modelos de Transformadores como BERT e GPT, conhecida por sua eficácia em tarefas de Processamento de Linguagem Natural (NLP).

Aplicações no mundo real

As funções de ativação são fundamentais em várias aplicações de IA:

  1. Deteção de objectos: Em modelos como o Ultralytics YOLO11, são utilizadas funções de ativação como SiLU ou ReLU nas camadas convolucionais(espinha dorsal, pescoço e cabeça de deteção) para processar caraterísticas de imagem e identificar objectos em imagens ou fluxos de vídeo. A escolha da função de ativação tem impacto tanto na precisão como na velocidade de inferência. Estes modelos são utilizados em veículos autónomos e sistemas de segurança.
  2. Reconhecimento de fala: As redes neurais recorrentes (RNN) e os transformadores utilizados em aplicações de conversão de voz em texto empregam funções de ativação como Tanh ou GELU para tratar dados de áudio sequenciais e transcrever a linguagem falada com precisão, alimentando assistentes virtuais e software de ditado.

Comparação com termos relacionados

É importante distinguir as funções de ativação de outros conceitos nas redes neuronais:

  • Funções de perda: Mede a diferença entre as previsões do modelo e os valores-alvo reais (o erro). As funções de ativação funcionam na passagem para a frente para determinar as saídas dos neurónios, enquanto as funções de perda são utilizadas após a passagem para a frente para avaliar o desempenho e orientar as actualizações dos pesos através da retropropagação.
  • Algoritmos de otimização: Algoritmos como Adam ou Stochastic Gradient Descent (SGD) são usados para atualizar os parâmetros do modeloweights and biases) com base nos gradientes calculados a partir da função de perda. Estas definem a forma como o modelo aprende, enquanto as funções de ativação definem o comportamento dos neurónios individuais.
  • Técnicas de normalização: Métodos como a Normalização de lote são aplicados às entradas ou saídas das camadas para estabilizar o treinamento, acelerar a convergência e, às vezes, melhorar a generalização. Eles modificam a distribuição de dados dentro da rede, mas não introduzem não-linearidade como fazem as funções de ativação. A normalização é freqüentemente aplicada antes da função de ativação.

Compreender as funções de ativação é essencial para conceber, treinar e otimizar modelos de aprendizagem automática eficazes em vários domínios, desde a visão computacional à PNL. A escolha certa pode ter um impacto significativo no desempenho do modelo e na dinâmica do treino. Podes explorar diferentes modelos e os seus componentes utilizando ferramentas como o Ultralytics HUB.

Lê tudo