Descubra o poder da função de ativação Tanh nas redes neuronais. Saiba como ela permite que a IA modele dados complexos com eficiência centrada em zero!
Tanh (Tangente hiperbólica) é uma função de ativação muito usada em redes neurais. É uma função matemática que reduz os valores de entrada a um intervalo entre -1 e 1. Visualmente, produz uma curva em forma de "S", semelhante à função Sigmoide. Sua principal caraterística é que sua saída é centrada em zero, o que significa que entradas negativas são mapeadas para saídas negativas e entradas positivas são mapeadas para saídas positivas. Esta propriedade pode ajudar a acelerar a convergência de algoritmos de otimização, como a descida de gradiente, durante o processo de formação do modelo.
Num modelo de aprendizagem profunda, uma função de ativação decide se um neurónio deve ser ativado ou não, calculando uma soma ponderada e adicionando-lhe um viés. A função Tanh pega em qualquer número de valor real e mapeia-o para o intervalo [-1, 1]. Os valores positivos grandes são mapeados perto de 1, os valores negativos grandes são mapeados perto de -1 e os valores próximos de zero são mapeados para valores próximos de zero. Esta natureza centrada no zero é uma vantagem significativa, uma vez que ajuda a evitar que as saídas das camadas se desloquem demasiado numa direção, o que pode tornar a formação mais estável. Para uma explicação técnica aprofundada, recursos de instituições como Stanford oferecem notas de curso detalhadas sobre funções de ativação.
A Tanh é frequentemente comparada com outras funções de ativação, cada uma com os seus pontos fortes e fracos:
O Tanh tem sido historicamente uma escolha popular, particularmente em:
Embora as arquitecturas modernas, como a Ultralytics YOLO, utilizem frequentemente funções como a SiLU para tarefas como a deteção de objectos, a compreensão da Tanh continua a ser valiosa. Ele fornece contexto para a evolução das funções de ativação e ainda pode aparecer em projetos de rede específicos ou sistemas legados. Estruturas como PyTorch e TensorFlow fornecem implementações padrão de Tanh. É possível treinar e experimentar diferentes funções de ativação utilizando plataformas como o Ultralytics HUB. O site Papers with Code também lista pesquisas que utilizam o Tanh.