Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

SiLU (Unidad Lineal Sigmoide)

Descubra cómo la función de activación SiLU (Sigmoid Linear Unit) mejora el aprendizaje profundo. Descubra por qué SiLU es el estándar para Ultralytics a la hora de mejorar la precisión.

La unidad lineal sigmoidea, comúnmente conocida como SiLU, es una función de activación muy eficaz utilizada en las arquitecturas modernas de aprendizaje profundo para introducir no linealidad en las redes neuronales. Al determinar cómo las neuronas procesan y transmiten la información a través de las capas de un modelo, SiLU permite a los sistemas aprender patrones complejos en los datos, funcionando como una alternativa más suave y sofisticada a las funciones escalonadas tradicionales. A menudo asociada con el término «Swish» de la investigación inicial sobre la búsqueda de activación automatizada, SiLU se ha convertido en un estándar en los modelos de visión por ordenador de alto rendimiento, incluida la arquitectura de última generación YOLO26.

Cómo funciona SiLU

En esencia, la función SiLU opera multiplicando un valor de entrada por su propia transformación sigmoidea. A diferencia de las funciones de umbral simples que cambian abruptamente una neurona entre «encendida» y «apagada», SiLU proporciona una curva suave que permite un procesamiento de señales más matizado. Esta estructura matemática crea características distintivas que benefician al proceso de entrenamiento del modelo:

  • Suavidad: La curva es continua y diferenciable en todas partes. Esta propiedad ayuda a algoritmos de optimización como el descenso de gradiente al proporcionar un panorama coherente para ajustar los pesos del modelo, lo que a menudo conduce a una convergencia más rápida durante el entrenamiento.
  • No monotonía: a diferencia de las unidades lineales estándar, SiLU es no monótono, lo que significa que su salida puede disminuir incluso cuando la entrada aumenta en ciertos rangos negativos. Esto permite a la red capturar características complejas y conservar valores negativos que, de otro modo, podrían descartarse, lo que ayuda a evitar el problema del gradiente desaparecido en las redes profundas.
  • Autoactivación: SiLU actúa como su propia puerta, modulando la cantidad de entrada que pasa a través de ella en función de la propia magnitud de la entrada. Esto imita los mecanismos de activación que se encuentran en las redes de memoria a corto y largo plazo (LSTM) , pero de una forma computacionalmente eficiente y adecuada para las redes neuronales convolucionales (CNN).

Aplicaciones en el mundo real

SiLU forma parte integral de muchas soluciones de IA de vanguardia en las que la precisión y la eficacia son primordiales.

  • Percepción de vehículos autónomos: en el ámbito crítico para la seguridad de los vehículos autónomos, los sistemas de percepción deben identificar peatones, señales de tráfico y obstáculos al instante. Los modelos que utilizan SiLU en su estructura pueden mantener altas velocidades de inferencia y, al mismo tiempo, realizar con precisión la detección de objetos en condiciones de iluminación variables, lo que garantiza que el vehículo reaccione de forma segura a su entorno.
  • Diagnóstico por imágenes médicas: En el análisis de imágenes médicas, las redes neuronales necesitan discernir diferencias sutiles de textura en resonancias magnéticas o tomografías computarizadas. La naturaleza de preservación del gradiente de SiLU ayuda a estas redes a aprender los detalles precisos necesarios para la detección temprana de tumores, mejorando significativamente la fiabilidad de las herramientas de diagnóstico automatizadas utilizadas por los radiólogos.

Comparación con conceptos relacionados

Para apreciar plenamente SiLU, es útil distinguirlo de otras funciones de activación que se encuentran en el Ultralytics .

  • SiLU frente a ReLU (unidad lineal rectificada): ReLU es famosa por su velocidad y simplicidad, ya que genera un resultado cero para todas las entradas negativas. Aunque es eficiente, esto puede provocar «neuronas muertas» que dejan de aprender. SiLU evita esto al permitir que un pequeño gradiente no lineal fluya a través de valores negativos, lo que a menudo da como resultado una mayor precisión para las arquitecturas profundas entrenadas en la Ultralytics .
  • SiLU frente a GELU (unidad lineal de error gaussiano): Estas dos funciones son similares tanto visual como funcionalmente. GELU es el estándar para modelos de transformador como BERT y GPT, mientras que SiLU se prefiere con frecuencia para tareas de visión por computadora (CV) y detectores de objetos basados en CNN .
  • SiLU frente a sigmoide: aunque SiLU utiliza la función sigmoide internamente, ambas cumplen funciones diferentes. La sigmoide se utiliza normalmente en la capa de salida final para la clasificación binaria con el fin de representar probabilidades, mientras que SiLU se utiliza en capas ocultas para facilitar la extracción de características .

Ejemplo de aplicación

Puede visualizar cómo las diferentes funciones de activación transforman los datos utilizando PyTorch . El siguiente fragmento de código muestra la diferencia entre ReLU (que pone a cero los valores negativos) y SiLU (que permite un flujo negativo suave).

import torch
import torch.nn as nn

# Input data: negative, zero, and positive values
data = torch.tensor([-2.0, 0.0, 2.0])

# Apply ReLU: Negatives become 0, positives stay unchanged
relu_out = nn.ReLU()(data)
print(f"ReLU: {relu_out}")
# Output: tensor([0., 0., 2.])

# Apply SiLU: Smooth curve, small negative value retained
silu_out = nn.SiLU()(data)
print(f"SiLU: {silu_out}")
# Output: tensor([-0.2384,  0.0000,  1.7616])

Al conservar la información en valores negativos y proporcionar un gradiente suave, SiLU desempeña un papel fundamental en el éxito de las redes neuronales modernas. Su adopción en arquitecturas como YOLO26 subraya su importancia para lograr un rendimiento de vanguardia en diversas tareas de visión por ordenador.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora