Glosario

Tanh (Tangente hiperbólica)

Descubra la potencia de la función de activación Tanh en las redes neuronales. Descubra cómo permite a la IA modelar datos complejos con una eficacia centrada en cero.

Tanh (tangente hiperbólica) es una función de activación muy utilizada en redes neuronales. Es una función matemática que aplasta los valores de entrada en un rango entre -1 y 1. Visualmente, produce una curva en forma de "S", similar a la función sigmoidea. Su principal característica es que su salida está centrada en cero, lo que significa que las entradas negativas se asignan a salidas negativas y las entradas positivas a salidas positivas. Esta propiedad puede ayudar a acelerar la convergencia de algoritmos de optimización como el descenso de gradiente durante el proceso de entrenamiento del modelo.

Cómo funciona Tanh

En un modelo de aprendizaje profundo, una función de activación decide si una neurona debe activarse o no calculando una suma ponderada y añadiéndole un sesgo. La función Tanh toma cualquier número de valor real y lo asigna al intervalo [-1, 1]. Los valores positivos grandes se asignan cerca de 1, los valores negativos grandes se asignan cerca de -1 y los valores cercanos a cero se asignan a valores cercanos a cero. Esta naturaleza centrada en cero es una ventaja significativa, ya que ayuda a evitar que las salidas de las capas se desplacen demasiado en una dirección, lo que puede hacer que el entrenamiento sea más estable. Para una explicación técnica en profundidad, los recursos de instituciones como Stanford ofrecen notas de curso detalladas sobre las funciones de activación.

Comparación con otras funciones de activación

Tanh se compara a menudo con otras funciones de activación, cada una con sus propios puntos fuertes y débiles:

  • Tanh vs. Sigmoide: Ambas funciones tienen una forma de S similar. Sin embargo, la función Sigmoide produce valores en el intervalo, mientras que Tanh produce valores en [-1, 1]. Como la salida de Tanh está centrada en cero, suele preferirse a Sigmoid en las capas ocultas de una red, ya que tiende a una convergencia más rápida.
  • Tanh frente a ReLU: ReLU y sus variantes, como Leaky ReLU y SiLU, se han convertido en la opción por defecto en muchas arquitecturas modernas de visión por ordenador. A diferencia de Tanh, ReLU no es costoso desde el punto de vista computacional y ayuda a mitigar el problema del gradiente evanescente, en el que los gradientes se vuelven extremadamente pequeños durante la retropropagación. Sin embargo, Tanh sigue siendo valioso en contextos específicos en los que se requiere una salida acotada. Puede verse el uso de funciones de activación modernas en modelos como Ultralytics YOLO11.

Aplicaciones en IA y aprendizaje automático

Tanh ha sido históricamente una opción popular, sobre todo en:

  • Redes neuronales recurrentes (RNN): El Tanh se utilizaba habitualmente en los estados ocultos de las RNN y variantes como las redes de memoria a largo plazo (LSTM ), especialmente para tareas de Procesamiento del Lenguaje Natural (PLN). Su rango acotado ayuda a regular el flujo de información dentro de las conexiones recurrentes. Para más información, consulte Comprender las LSTM.
  • Análisis de sentimientos: En los modelos de PLN más antiguos, Tanh ayudaba a asignar características extraídas del texto (por ejemplo, incrustaciones de palabras procesadas por una RNN) a un rango continuo, representando la polaridad del sentimiento de negativo (-1) a positivo (+1). Puede encontrar conjuntos de datos relevantes para el análisis del sentimiento en plataformas como Kaggle.
  • Sistemas de control y robótica: En el aprendizaje por refuerzo (RL), Tanh se utiliza a veces como la función de activación final para las políticas que las acciones de salida continua delimitada dentro de un rango específico (por ejemplo, el control de par motor entre -1 y +1). Frameworks como Gymnasium (antes OpenAI Gym) se utilizan a menudo en la investigación de RL.
  • Capas ocultas: Puede utilizarse en las capas ocultas de las redes feedforward, aunque ahora son más comunes las variantes ReLU. Puede elegirse cuando la propiedad de centrado en cero es especialmente beneficiosa para el problema o la arquitectura específicos. Puede explorar el rendimiento de distintas arquitecturas en nuestras páginas de comparación de modelos.

Aunque las arquitecturas modernas como Ultralytics YOLO suelen utilizar funciones como SiLU para tareas como la detección de objetos, comprender Tanh sigue siendo valioso. Proporciona contexto para la evolución de las funciones de activación y podría seguir apareciendo en diseños de red específicos o en sistemas heredados. Frameworks como PyTorch y TensorFlow proporcionan implementaciones estándar de Tanh. Puede entrenar y experimentar con diferentes funciones de activación utilizando plataformas como Ultralytics HUB. El sitio web Papers with Code también ofrece una lista de investigaciones que utilizan Tanh.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles