GELU (Unidad lineal de error gaussiano)

Descubra cómo la función de activación GELU mejora los modelos de transformador como GPT-4, aumentando el flujo de gradiente, la estabilidad y la eficacia.

GELU (Gaussian Error Linear Unit) es una función de activación de alto rendimiento que se ha convertido en un estándar en las arquitecturas de redes neuronales de última generación, especialmente en los modelos Transformer. Es conocida por su curva suave y no monótona, que ayuda a los modelos a aprender patrones complejos con más eficacia que otras funciones más antiguas. Introducida en el artículo"Gaussian Error Linear Units (GELUs)", combina propiedades de otras funciones como dropout y ReLU para mejorar la estabilidad del entrenamiento y el rendimiento del modelo.

Cómo funciona GELU

A diferencia de ReLU, que corta bruscamente todos los valores negativos, GELU pondera sus entradas en función de su magnitud. Determina probabilísticamente si debe activar una neurona multiplicando la entrada por la función de distribución acumulativa (CDF) de la distribución gaussiana estándar. Esto significa que es más probable que las entradas se "descarten" (se pongan a cero) cuanto más negativas sean, pero la transición es suave y no brusca. Esta propiedad de regularización estocástica ayuda a evitar problemas como el del gradiente evanescente y permite una representación más rica de los datos, algo crucial para los modelos modernos de aprendizaje profundo.

GELU frente a otras funciones de activación

GELU ofrece varias ventajas sobre otras funciones de activación populares, lo que ha llevado a su adopción generalizada.

GELU frente a ReLU: La principal diferencia es la suavidad de GELU. Aunque ReLU es sencillo desde el punto de vista computacional, su curva aguda en cero puede provocar a veces el problema del "ReLU moribundo", en el que las neuronas se vuelven permanentemente inactivas. La curva suave de GELU evita este problema, lo que facilita un descenso por gradiente más estable y suele conducir a una mayor precisión final.
GELU frente a Leaky ReLU: Leaky ReLU intenta solucionar el problema de ReLU moribundo permitiendo una pequeña pendiente negativa para las entradas negativas. Sin embargo, la naturaleza curva y no lineal de GELU proporciona un rango de activación más dinámico que ha demostrado superar a Leaky ReLU en muchas tareas de aprendizaje profundo.
GELU frente a SiLU (Swish): La unidad lineal sigmoidea (SiLU), también conocida como Swish, es muy similar a GELU. Ambas son funciones suaves y no monotónicas que han demostrado un excelente rendimiento. La elección entre ellas suele reducirse a pruebas empíricas para una arquitectura y un conjunto de datos específicos, aunque algunas investigaciones sugieren que SiLU puede ser ligeramente más eficiente en determinados modelos de visión por ordenador. Modelos como Ultralytics YOLO suelen utilizar SiLU por su equilibrio entre rendimiento y eficacia.

Aplicaciones en IA y aprendizaje profundo

GELU es un componente clave en muchos de los modelos de IA más potentes desarrollados hasta la fecha.

Procesamiento del lenguaje natural (PLN): GELU es la función de activación estándar en las redes feed-forward de las arquitecturas Transformer. Esto incluye modelos seminales como BERT y la serie GPT, que son la base de casi todos los grandes modelos lingüísticos (LLM) modernos. Su capacidad para manejar patrones lingüísticos complejos los hace ideales para tareas como la traducción automática y el resumen de textos. Puede obtener más información sobre estos modelos en recursos de organizaciones como Hugging Face.
Visión por ordenador (CV): Tras su éxito en PNL, GELU se adoptó en los modelos Vision Transformer (ViT). Estos modelos aplican la arquitectura Transformer a parches de imágenes para tareas como la clasificación de imágenes y la detección de objetos. El rendimiento de los ViT ha demostrado la eficacia de GELU en el procesamiento de la información visual, desafiando el dominio de las redes neuronales convolucionales (CNN) tradicionales.

Aplicación y uso

GELU está disponible en los principales marcos de aprendizaje profundo, lo que facilita su incorporación a modelos personalizados.

PyTorch: Implementado como torch.nn.GELUcon información detallada en el documentación oficial de PyTorch GELU.
TensorFlow: Disponible como tf.keras.activations.geluque se documenta en el Documentación de la API TensorFlow.

Los desarrolladores pueden crear, entrenar y desplegar modelos utilizando GELU con plataformas como Ultralytics HUB, que agiliza todo el ciclo de vida de MLOps, desde el aumento de datos hasta el despliegue final del modelo.

GELU (Unidad lineal de error gaussiano)

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona GELU

GELU frente a otras funciones de activación

Aplicaciones en IA y aprendizaje profundo

Aplicación y uso

Leer más en esta categoría

Comprender la fabricación aditiva: Tecnología y casos de uso

Supervisión de las operaciones aeroportuarias en tierra con Ultralytics YOLO11

Evolución y futuro de la robótica en la fabricación

Únase a la comunidad Ultralytics