Глоссарий

GELU (Gaussian Error Linear Unit)

Узнай, как функция активации GELU улучшает модели трансформаторов вроде GPT-4, повышая градиентный поток, стабильность и эффективность.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Линейная единица с гауссовой ошибкой, или GELU, - это высокопроизводительная функция активации, широко используемая в современных нейронных сетях (НС), в частности в трансформаторных моделях. Предложенная в статье"Gaussian Error Linear Units (GELUs)" Дэна Хендрикса и Кевина Гимпела, GELU представляет вероятностный подход к активации нейронов, отступая от детерминированной природы функций вроде ReLU. Он взвешивает входы на основе их величины, а не просто стробит их по знаку, эффективно сочетая свойства dropout, zoneout и ReLU.

Как работает GELU

GELU определяет выход нейрона путем умножения входного значения на значение стандартной гауссовой кумулятивной функции распределения (CDF), примененной к этому входу. Это означает, что активация стохастична и зависит от самого входного значения. В отличие от ReLU, который резко обрезает отрицательные значения, GELU дает более плавную кривую. Входы с большими величинами с большей вероятностью будут сохранены, а входы, близкие к нулю, с большей вероятностью будут обнулены. Такое плавное, вероятностное взвешивание позволяет получить более богатые представления и потенциально лучший градиентный поток во время обратного распространения, что очень важно для обучения глубоких сетей.

Сравнение с другими функциями активации

GELU обладает отличными характеристиками по сравнению с другими распространенными функциями активации:

  • ReLU (Rectified Linear Unit): ReLU прост в вычислениях (выход равен входу, если он положительный, и нулю в противном случае). GELU более гладкий и немонотонный (он может уменьшаться по мере увеличения входа для отрицательных значений), что иногда может помочь уловить более сложные закономерности. Однако GELU требует больше вычислительных затрат, чем ReLU.
  • Sigmoid и Tanh: эти функции сжимают входные данные в фиксированный диапазон (от 0 до 1 для Sigmoid, от -1 до 1 для Tanh). Хотя они полезны в определенных контекстах (например, в выходных слоях для вероятностей), они могут страдать от проблемы исчезающего градиента в глубоких сетях. GELU, как и ReLU, не имеет верхней границы, что смягчает эту проблему для положительных значений.
  • SiLU (Sigmoid Linear Unit) / Swish: SiLU - еще одна гладкая, немонотонная функция активации, которая умножает входные данные на сигмоид. Она имеет общие черты с GELU в плане формы и производительности, часто рассматривается как близкая альтернатива. Обе показали сильные эмпирические результаты.

Преимущества GELU

  • Плавность: Его плавная кривая обеспечивает лучшую динамику градиентного спуска по сравнению с острой точкой в ReLU.
  • Немонотонность: Позволяет делать более сложную аппроксимацию функций.
  • Вероятностная интерпретация: Включает входную величину в решение об активации стохастическим образом.
  • Современная производительность: Часто используется в моделях с высочайшей производительностью, особенно в трансформерах.

Недостатки и соображения

  • Вычислительные затраты: Вычисление гауссовского CDF более дорогостоящее, чем простые операции в ReLU. На практике часто используются эффективные аппроксимации.
  • Сложность: Немного сложнее для понимания и реализации с нуля по сравнению с более простыми функциями вроде ReLU.

Применение и значение

GELU стал популярным выбором во многих продвинутых моделях глубокого обучения благодаря своей сильной эмпирической производительности:

Способность функции обеспечивать плавную нелинейность и учитывать величину входного сигнала при принятии решения об активации делает ее эффективной для обучения глубоких сетей. Хотя она немного более вычислительно трудоемка, чем ReLU, ее преимущества в производительности часто оправдывают ее использование в крупномасштабных моделях, доступных через такие фреймворки, как PyTorch и TensorFlow. Ты можешь изучить различные модели и обучить их с помощью таких инструментов, как Ultralytics HUB.

Читать полностью