Descubre cómo la función de activación SiLU (Swish) aumenta el rendimiento del aprendizaje profundo en tareas de IA como la detección de objetos y la PNL.
SiLU (Sigmoid Linear Unit), también conocida como función Swish, es una función de activación utilizada en modelos de aprendizaje profundo (DL), en particular en redes neuronales (NN). Fue propuesta por investigadores de Google y ha ganado popularidad debido a su eficacia para mejorar el rendimiento del modelo en comparación con las funciones de activación tradicionales como ReLU y Sigmoide. SiLU se valora por su suavidad y sus propiedades no monotónicas, que pueden ayudar con el flujo de gradiente y la optimización del modelo. Para una comprensión más amplia, consulta una visión general de la función de activación.
SiLU se define como el producto de la entrada y el Sigmoide aplicada a la entrada. Esencialmente, SiLU(x) = x * sigmoid(x)
. Esta formulación permite a SiLU actuar como un mecanismo de auto-regulación, en el que el componente sigmoide determina hasta qué punto la entrada lineal x
es atravesada. Cuando la salida sigmoidea está cerca de 1, la entrada pasa casi sin cambios (similar a ReLU para valores positivos), y cuando está cerca de 0, la salida se suprime hacia cero. A diferencia del ReLU, el SiLU es suave y no monotónico (puede disminuir aunque aumente la entrada), propiedades derivadas de su Detalles de la función sigmoidea componente. El concepto se detalló en el papel Swish original.
SiLU ofrece varias ventajas que contribuyen a su eficacia en los modelos de aprendizaje profundo:
SiLU se distingue de otras funciones de activación comunes:
max(0, x)
) y lineal para valores positivos, pero sufre el problema del "ReLU moribundo", en el que las neuronas pueden volverse inactivas para entradas negativas. Véase una Explicación de ReLU. SiLU es suave y evita este problema gracias a su salida distinta de cero para los valores negativos.SiLU es versátil y se ha aplicado con éxito en diversos ámbitos en los que se utilizan modelos de aprendizaje profundo:
SiLU está disponible en los principales marcos de aprendizaje profundo:
torch.nn.SiLU
con funcionario Documentación de PyTorch para SiLU disponible.tf.keras.activations.swish
o tf.keras.activations.silu
documentado en el Documentación de TensorFlow para SiLU.Plataformas como Ultralytics HUB apoyan la formación de modelos y la exploración de diversas opciones de despliegue para modelos que utilizan componentes avanzados como SiLU. La investigación continua y los recursos de organizaciones como DeepLearning.AI ayudan a los profesionales a aprovechar estas funciones con eficacia.