Glosario

SiLU (Unidad lineal sigmoidea)

Descubre cómo la función de activación SiLU (Swish) aumenta el rendimiento del aprendizaje profundo en tareas de IA como la detección de objetos y la PNL.

SiLU (Sigmoid Linear Unit), también conocida como función Swish, es una función de activación utilizada en modelos de aprendizaje profundo (DL), en particular en redes neuronales (NN). Fue propuesta por investigadores de Google y ha ganado popularidad debido a su eficacia para mejorar el rendimiento del modelo en comparación con las funciones de activación tradicionales como ReLU y Sigmoide. SiLU se valora por su suavidad y sus propiedades no monotónicas, que pueden ayudar con el flujo de gradiente y la optimización del modelo. Para una comprensión más amplia, consulta una visión general de la función de activación.

Cómo funciona SiLU

SiLU se define como el producto de la entrada y el Sigmoide aplicada a la entrada. Esencialmente, SiLU(x) = x * sigmoid(x). Esta formulación permite a SiLU actuar como un mecanismo de auto-regulación, en el que el componente sigmoide determina hasta qué punto la entrada lineal x es atravesada. Cuando la salida sigmoidea está cerca de 1, la entrada pasa casi sin cambios (similar a ReLU para valores positivos), y cuando está cerca de 0, la salida se suprime hacia cero. A diferencia del ReLU, el SiLU es suave y no monotónico (puede disminuir aunque aumente la entrada), propiedades derivadas de su Detalles de la función sigmoidea componente. El concepto se detalló en el papel Swish original.

Ventajas de SiLU

SiLU ofrece varias ventajas que contribuyen a su eficacia en los modelos de aprendizaje profundo:

Suavidad: A diferencia de ReLU, SiLU es una función suave, lo que significa que su derivada es continua. Esta suavidad puede ser beneficiosa para los algoritmos de optimización basados en el gradiente durante la retropropagación, lo que conduce a un entrenamiento más estable.
No monotonicidad: La forma de la función, que desciende ligeramente para las entradas negativas antes de subir hacia cero, podría ayudar a la red a representar patrones más complejos.
Evitar gradientes evanescentes: Mientras que las funciones sigmoidales pueden sufrir significativamente el problema del gradiente evanescente en las redes profundas, SiLU mitiga este problema, especialmente para entradas positivas en las que se comporta linealmente, de forma similar a ReLU.
Mejora del rendimiento: Los estudios empíricos han demostrado que la sustitución de ReLU por SiLU puede dar lugar a mejoras en la precisión del modelo en diversas tareas y conjuntos de datos, sobre todo en arquitecturas más profundas.

Comparación con otras funciones de activación

SiLU se distingue de otras funciones de activación comunes:

ReLU: ReLU es computacionalmente más sencillo (max(0, x)) y lineal para valores positivos, pero sufre el problema del "ReLU moribundo", en el que las neuronas pueden volverse inactivas para entradas negativas. Véase una Explicación de ReLU. SiLU es suave y evita este problema gracias a su salida distinta de cero para los valores negativos.
Sigmoide: El sigmoide asigna las entradas a un rango entre 0 y 1, pero sufre de saturación y gradientes evanescentes, lo que lo hace menos adecuado para las capas ocultas de las redes profundas en comparación con SiLU.
ReLU con fugas: Leaky ReLU aborda el problema de ReLU moribundo permitiendo un gradiente pequeño y distinto de cero para las entradas negativas. SiLU ofrece un perfil diferente, más suave.
GELU: GELU (Gaussian Error Linear Unit) es otra función de activación suave que suele tener un rendimiento similar a SiLU. Generalmente se considera que SiLU es computacionalmente algo más sencilla que GELU.

Aplicaciones de SiLU

SiLU es versátil y se ha aplicado con éxito en diversos ámbitos en los que se utilizan modelos de aprendizaje profundo:

Detección de objetos: SiLU se utiliza a menudo en las arquitecturas de los modelos de detección de objetos más avanzados, incluidas algunas versiones relacionadas con Ultralytics YOLO. Por ejemplo, detectar vehículos y peatones con precisión es fundamental para los sistemas de conducción autónoma.
Clasificación de imágenes: Ha demostrado un gran rendimiento en Redes Neuronales Convolucionales (CNN ) para clasificar imágenes, contribuyendo a una mayor precisión en conjuntos de datos de referencia. Un ejemplo es la clasificación de distintos tipos de tejido en el análisis de imágenes médicas para ayudar en el diagnóstico de enfermedades.
Procesamiento del Lenguaje Natural (PLN): SiLU también puede encontrarse en modelos de PLN, mejorando el rendimiento en tareas como la clasificación de textos y otras aplicaciones de PLN.
Visión por ordenador (CV) general: Sus propiedades la convierten en una firme candidata para diversas tareas de VC más allá de la detección y la clasificación.

Aplicación

SiLU está disponible en los principales marcos de aprendizaje profundo:

PyTorch: Implementado como torch.nn.SiLUcon funcionario Documentación de PyTorch para SiLU disponible.
TensorFlow: Disponible como tf.keras.activations.swish o tf.keras.activations.siludocumentado en el Documentación de TensorFlow para SiLU.

Plataformas como Ultralytics HUB apoyan la formación de modelos y la exploración de diversas opciones de despliegue para modelos que utilizan componentes avanzados como SiLU. La investigación continua y los recursos de organizaciones como DeepLearning.AI ayudan a los profesionales a aprovechar estas funciones con eficacia.

SiLU (Unidad lineal sigmoidea)

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Solución flexible de licencias empresariales para impulsar tu innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Entrena modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona SiLU

Ventajas de SiLU

Comparación con otras funciones de activación

Aplicaciones de SiLU

Aplicación

Leer más blogs

Únete a la comunidad Ultralytics

SiLU (Unidad lineal sigmoidea)

Entrena los modelos YOLO simplementecon Ultralytics HUB

Solución flexible de licencias empresariales para impulsar tu innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Entrena modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona SiLU

Ventajas de SiLU

Comparación con otras funciones de activación

Aplicaciones de SiLU

Aplicación

Leer más blogs

Únete a la comunidad Ultralytics

Entrena los modelos YOLO simplemente
con Ultralytics HUB