Glosario

SiLU (Unidad lineal sigmoidea)

Descubre cómo la función de activación SiLU (Swish) aumenta el rendimiento del aprendizaje profundo en tareas de IA como la detección de objetos y la PNL.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

SiLU (Sigmoid Linear Unit), también conocida como función Swish, es una función de activación utilizada en modelos de aprendizaje profundo (DL), en particular en redes neuronales (NN). Fue propuesta por investigadores de Google y ha ganado popularidad debido a su eficacia para mejorar el rendimiento del modelo en comparación con las funciones de activación tradicionales como ReLU y Sigmoide. SiLU se valora por su suavidad y sus propiedades no monotónicas, que pueden ayudar con el flujo de gradiente y la optimización del modelo. Para una comprensión más amplia, consulta una visión general de la función de activación.

Cómo funciona SiLU

SiLU se define como el producto de la entrada y el Sigmoide aplicada a la entrada. Esencialmente, SiLU(x) = x * sigmoid(x). Esta formulación permite a SiLU actuar como un mecanismo de auto-regulación, en el que el componente sigmoide determina hasta qué punto la entrada lineal x es atravesada. Cuando la salida sigmoidea está cerca de 1, la entrada pasa casi sin cambios (similar a ReLU para valores positivos), y cuando está cerca de 0, la salida se suprime hacia cero. A diferencia del ReLU, el SiLU es suave y no monotónico (puede disminuir aunque aumente la entrada), propiedades derivadas de su Detalles de la función sigmoidea componente. El concepto se detalló en el papel Swish original.

Ventajas de SiLU

SiLU ofrece varias ventajas que contribuyen a su eficacia en los modelos de aprendizaje profundo:

  • Suavidad: A diferencia de ReLU, SiLU es una función suave, lo que significa que su derivada es continua. Esta suavidad puede ser beneficiosa para los algoritmos de optimización basados en el gradiente durante la retropropagación, lo que conduce a un entrenamiento más estable.
  • No monotonicidad: La forma de la función, que desciende ligeramente para las entradas negativas antes de subir hacia cero, podría ayudar a la red a representar patrones más complejos.
  • Evitar gradientes evanescentes: Mientras que las funciones sigmoidales pueden sufrir significativamente el problema del gradiente evanescente en las redes profundas, SiLU mitiga este problema, especialmente para entradas positivas en las que se comporta linealmente, de forma similar a ReLU.
  • Mejora del rendimiento: Los estudios empíricos han demostrado que la sustitución de ReLU por SiLU puede dar lugar a mejoras en la precisión del modelo en diversas tareas y conjuntos de datos, sobre todo en arquitecturas más profundas.

Comparación con otras funciones de activación

SiLU se distingue de otras funciones de activación comunes:

  • ReLU: ReLU es computacionalmente más sencillo (max(0, x)) y lineal para valores positivos, pero sufre el problema del "ReLU moribundo", en el que las neuronas pueden volverse inactivas para entradas negativas. Véase una Explicación de ReLU. SiLU es suave y evita este problema gracias a su salida distinta de cero para los valores negativos.
  • Sigmoide: El sigmoide asigna las entradas a un rango entre 0 y 1, pero sufre de saturación y gradientes evanescentes, lo que lo hace menos adecuado para las capas ocultas de las redes profundas en comparación con SiLU.
  • ReLU con fugas: Leaky ReLU aborda el problema de ReLU moribundo permitiendo un gradiente pequeño y distinto de cero para las entradas negativas. SiLU ofrece un perfil diferente, más suave.
  • GELU: GELU (Gaussian Error Linear Unit) es otra función de activación suave que suele tener un rendimiento similar a SiLU. Generalmente se considera que SiLU es computacionalmente algo más sencilla que GELU.

Aplicaciones de SiLU

SiLU es versátil y se ha aplicado con éxito en diversos ámbitos en los que se utilizan modelos de aprendizaje profundo:

Aplicación

SiLU está disponible en los principales marcos de aprendizaje profundo:

Plataformas como Ultralytics HUB apoyan la formación de modelos y la exploración de diversas opciones de despliegue para modelos que utilizan componentes avanzados como SiLU. La investigación continua y los recursos de organizaciones como DeepLearning.AI ayudan a los profesionales a aprovechar estas funciones con eficacia.

Leer todo