Glossário

Tanh (Tangente hiperbólica)

Descubra o poder da função de ativação Tanh nas redes neuronais. Saiba como ela permite que a IA modele dados complexos com eficiência centrada em zero!

Tanh (Tangente hiperbólica) é uma função de ativação muito usada em redes neurais. É uma função matemática que reduz os valores de entrada a um intervalo entre -1 e 1. Visualmente, produz uma curva em forma de "S", semelhante à função Sigmoide. Sua principal caraterística é que sua saída é centrada em zero, o que significa que entradas negativas são mapeadas para saídas negativas e entradas positivas são mapeadas para saídas positivas. Esta propriedade pode ajudar a acelerar a convergência de algoritmos de otimização, como a descida de gradiente, durante o processo de formação do modelo.

Como funciona o Tanh

Num modelo de aprendizagem profunda, uma função de ativação decide se um neurónio deve ser ativado ou não, calculando uma soma ponderada e adicionando-lhe um viés. A função Tanh pega em qualquer número de valor real e mapeia-o para o intervalo [-1, 1]. Os valores positivos grandes são mapeados perto de 1, os valores negativos grandes são mapeados perto de -1 e os valores próximos de zero são mapeados para valores próximos de zero. Esta natureza centrada no zero é uma vantagem significativa, uma vez que ajuda a evitar que as saídas das camadas se desloquem demasiado numa direção, o que pode tornar a formação mais estável. Para uma explicação técnica aprofundada, recursos de instituições como Stanford oferecem notas de curso detalhadas sobre funções de ativação.

Comparação com outras funções de ativação

A Tanh é frequentemente comparada com outras funções de ativação, cada uma com os seus pontos fortes e fracos:

  • Tanh vs. Sigmoide: Ambas as funções têm uma forma de S semelhante. No entanto, a função Sigmoide produz valores no intervalo, enquanto Tanh produz valores em [-1, 1]. Como a saída de Tanh é centrada em zero, ela é freqüentemente preferida à Sigmoide nas camadas ocultas de uma rede, pois tende a levar a uma convergência mais rápida.
  • Tanh vs. ReLU: A ReLU e as suas variantes, como a Leaky ReLU e a SiLU, tornaram-se a escolha padrão em muitas arquitecturas modernas de visão computacional. Ao contrário do Tanh, o ReLU não é computacionalmente dispendioso e ajuda a mitigar o problema do gradiente de desaparecimento, em que os gradientes se tornam extremamente pequenos durante a retropropagação. No entanto, o Tanh ainda é valioso em contextos específicos em que é necessária uma saída limitada. É possível ver a utilização de funções de ativação modernas em modelos como o Ultralytics YOLO11.

Aplicações em IA e aprendizagem automática

O Tanh tem sido historicamente uma escolha popular, particularmente em:

  • Redes Neuronais Recorrentes (RNNs): O Tanh era normalmente utilizado nos estados ocultos das RNNs e variantes como as redes de Memória de Curto Prazo Longo (LSTM), especialmente para tarefas de Processamento de Linguagem Natural (PNL). O seu alcance limitado ajuda a regular o fluxo de informação dentro das ligações recorrentes. Para obter mais detalhes, consulte Entendendo as LSTMs.
  • Análise de sentimentos: Em modelos de PNL mais antigos, o Tanh ajudou a mapear caraterísticas extraídas do texto (por exemplo, word embeddings processados por um RNN) para um intervalo contínuo, representando a polaridade do sentimento de negativo (-1) a positivo (+1). Pode encontrar conjuntos de dados relevantes para a análise de sentimentos em plataformas como o Kaggle.
  • Sistemas de controlo e robótica: Na aprendizagem por reforço (RL), Tanh é por vezes utilizada como função de ativação final para políticas que produzem acções contínuas limitadas por um intervalo específico (por exemplo, controlar o binário do motor entre -1 e +1). Estruturas como o Gymnasium (anteriormente OpenAI Gym) são frequentemente utilizadas na investigação em RL.
  • Camadas ocultas: Pode ser utilizado nas camadas ocultas das redes feedforward, embora as variantes ReLU sejam atualmente mais comuns. Pode ser escolhido quando a propriedade centrada em zero é particularmente benéfica para o problema ou arquitetura específicos. É possível explorar o desempenho de diferentes arquitecturas nas nossas páginas de comparação de modelos.

Embora as arquitecturas modernas, como a Ultralytics YOLO, utilizem frequentemente funções como a SiLU para tarefas como a deteção de objectos, a compreensão da Tanh continua a ser valiosa. Ele fornece contexto para a evolução das funções de ativação e ainda pode aparecer em projetos de rede específicos ou sistemas legados. Estruturas como PyTorch e TensorFlow fornecem implementações padrão de Tanh. É possível treinar e experimentar diferentes funções de ativação utilizando plataformas como o Ultralytics HUB. O site Papers with Code também lista pesquisas que utilizam o Tanh.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência