Glossário

Tanh (Tangente hiperbólica)

Descobre o poder da função de ativação Tanh nas redes neuronais. Aprende como ela permite que a IA modele dados complexos com eficiência centrada em zero!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Tanh (Hyperbolic Tangent) é uma função de ativação muito utilizada na inteligência artificial (IA) e na aprendizagem automática (ML). É uma função matemática que introduz a não-linearidade nas redes neurais (NNs), permitindo-lhes aprender padrões complexos a partir dos dados. Tanh comprime os valores de entrada num intervalo entre -1 e 1, produzindo uma curva em forma de "S" semelhante à função Sigmoid, mas centrada em zero.

Como funciona o Tanh

A função Tanh recebe qualquer número de valor real como entrada e produz um valor entre -1 e 1. Entradas próximas de zero produzem saídas próximas de zero. Entradas positivas grandes resultam em saídas que se aproximam de 1, enquanto entradas negativas grandes resultam em saídas que se aproximam de -1. Essa propriedade centrada em zero é uma caraterística fundamental de Tanh. Como suas saídas são centralizadas em zero, Tanh pode, às vezes, ajudar os modelos a convergir mais rapidamente durante o treinamento em comparação com funções como Sigmoid, cujas saídas variam de 0 a 1. Essa centralização ajuda a equilibrar as atualizações aplicadas durante a otimização de descida de gradiente.

Tanh vs. Outras funções de ativação

Tanh era uma escolha popular, especialmente antes do advento de funções como ReLU (Rectified Linear Unit). Vê aqui como se compara:

  • Tanh vs. Sigmoide: Ambas têm curvas em forma de S, mas a faixa de saída de Tanh (-1 a 1) é centrada em zero, ao contrário da de Sigmoid (0 a 1). Essa centralização em zero geralmente torna Tanh preferível em camadas ocultas de arquiteturas de redes neurais mais antigas. No entanto, ambos podem sofrer com o problema do gradiente de desaparecimento, em que os gradientes se tornam muito pequenos para grandes entradas positivas ou negativas, retardando o aprendizado em redes profundas.
  • Tanh vs. ReLU: ReLU e suas variantes como Leaky ReLU e SiLU (usadas em modelos como Ultralytics YOLO) são computacionalmente mais simples e geralmente evitam o problema do gradiente de fuga para entradas positivas. Embora o Tanh seja computacionalmente mais intensivo e ainda propenso a gradientes de desaparecimento, não sofre do problema do "ReLU moribundo", em que os neurónios podem ficar permanentemente inactivos. As arquitecturas modernas, como as utilizadas nos modelos de deteção de objectos mais avançados, como o YOLOv8 e YOLO11favorecem frequentemente as variantes ReLU para um melhor desempenho e um treino mais rápido.

Aplicações em IA e aprendizagem automática

Embora seja menos comum nas camadas ocultas das modernas redes neurais convolucionais profundas (CNNs) em comparação com as variantes ReLU, Tanh ainda é utilizado:

  1. Redes Neuronais Recorrentes (RNNs): Tanh tem sido historicamente uma função de ativação comum nos estados ocultos das RNNs e variantes como as LSTMs utilizadas para tarefas de modelação de sequências no Processamento de Linguagem Natural (PLN) e na análise de séries temporais. O seu alcance limitado ajuda a regular o fluxo de informação dentro das ligações recorrentes.
  2. Redes adversariais generativas (GANs): Em algumas arquiteturas de GAN, a camada final do gerador pode usar Tanh para produzir saídas normalizadas entre -1 e 1. Isso é particularmente útil ao gerar imagens cujos valores de pixel foram normalizados para esse intervalo durante o pré-processamento de dados.

Vantagens e desvantagens

Vantagens:

  • Saída centrada em zero: Ajuda na dinâmica de otimização em comparação com funções não centradas no zero, como a Sigmoide.
  • Gradiente mais forte: Comparado com o Sigmoid, o Tanh tem uma derivada mais acentuada em torno de zero, o que pode levar a uma aprendizagem inicial mais rápida.

Desvantagens:

  • Desaparecimento de gradientes: Sofre de gradientes de desaparecimento para grandes entradas, potencialmente dificultando a aprendizagem em redes muito profundas. Explora a documentaçãoUltralytics para obteres informações sobre como mitigar esses problemas durante o treino do modelo.
  • Custo computacional: É mais dispendioso do ponto de vista computacional do que funções mais simples como ReLU devido aos cálculos exponenciais envolvidos. Plataformas como o Ultralytics HUB oferecem ferramentas para treinar e avaliar modelos com diferentes configurações.

A compreensão de Tanh fornece um contexto valioso para a evolução das funções de ativação e o seu papel na formação das capacidades das redes neuronais em várias aplicações de IA. Embora muitas vezes substituída por variantes ReLU na aprendizagem profunda moderna para visão computacional, continua a ser uma função relevante em tipos e aplicações de rede específicos.

Lê tudo