Глоссарий

GELU (Gaussian Error Linear Unit)

Узнай, как функция активации GELU улучшает модели трансформаторов вроде GPT-4, повышая градиентный поток, стабильность и эффективность.

Линейная единица с гауссовой ошибкой, или GELU, - это высокопроизводительная функция активации, широко используемая в современных нейронных сетях (НС), в частности в трансформаторных моделях. Предложенная в статье"Gaussian Error Linear Units (GELUs)" Дэна Хендрикса и Кевина Гимпела, GELU представляет вероятностный подход к активации нейронов, отступая от детерминированной природы функций вроде ReLU. Он взвешивает входы на основе их величины, а не просто стробит их по знаку, эффективно сочетая свойства dropout, zoneout и ReLU.

Как работает GELU

GELU определяет выход нейрона путем умножения входного значения на значение стандартной гауссовой кумулятивной функции распределения (CDF), примененной к этому входу. Это означает, что активация стохастична и зависит от самого входного значения. В отличие от ReLU, который резко обрезает отрицательные значения, GELU дает более плавную кривую. Входы с большими величинами с большей вероятностью будут сохранены, а входы, близкие к нулю, с большей вероятностью будут обнулены. Такое плавное, вероятностное взвешивание позволяет получить более богатые представления и потенциально лучший градиентный поток во время обратного распространения, что очень важно для обучения глубоких сетей.

Сравнение с другими функциями активации

GELU обладает отличными характеристиками по сравнению с другими распространенными функциями активации:

ReLU (Rectified Linear Unit): ReLU прост в вычислениях (выход равен входу, если он положительный, и нулю в противном случае). GELU более гладкий и немонотонный (он может уменьшаться по мере увеличения входа для отрицательных значений), что иногда может помочь уловить более сложные закономерности. Однако GELU требует больше вычислительных затрат, чем ReLU.
Sigmoid и Tanh: эти функции сжимают входные данные в фиксированный диапазон (от 0 до 1 для Sigmoid, от -1 до 1 для Tanh). Хотя они полезны в определенных контекстах (например, в выходных слоях для вероятностей), они могут страдать от проблемы исчезающего градиента в глубоких сетях. GELU, как и ReLU, не имеет верхней границы, что смягчает эту проблему для положительных значений.
SiLU (Sigmoid Linear Unit) / Swish: SiLU - еще одна гладкая, немонотонная функция активации, которая умножает входные данные на сигмоид. Она имеет общие черты с GELU в плане формы и производительности, часто рассматривается как близкая альтернатива. Обе показали сильные эмпирические результаты.

Преимущества GELU

Плавность: Его плавная кривая обеспечивает лучшую динамику градиентного спуска по сравнению с острой точкой в ReLU.
Немонотонность: Позволяет делать более сложную аппроксимацию функций.
Вероятностная интерпретация: Включает входную величину в решение об активации стохастическим образом.
Современная производительность: Часто используется в моделях с высочайшей производительностью, особенно в трансформерах.

Недостатки и соображения

Вычислительные затраты: Вычисление гауссовского CDF более дорогостоящее, чем простые операции в ReLU. На практике часто используются эффективные аппроксимации.
Сложность: Немного сложнее для понимания и реализации с нуля по сравнению с более простыми функциями вроде ReLU.

Применение и значение

GELU стал популярным выбором во многих продвинутых моделях глубокого обучения благодаря своей сильной эмпирической производительности:

Модели трансформеров: GELU - стандартная функция активации в слоях feed-forward архитектур трансформаторов, питающая такие модели, как:
- BERT (Bidirectional Encoder Representations from Transformers): Используется для таких задач, как понимание естественного языка (NLU) и ответы на вопросы.
- GPT-модели (Generative Pre-trained Transformer): Используются в больших языковых моделях (LLM) для генерации текстов, подведения итогов и многого другого.
Преобразователи зрения (Vision Transformers, ViT): Используются в ViT и связанных с ними архитектурах для задач компьютерного зрения (КВ), таких как классификация изображений и обнаружение объектов.
Ultralytics YOLOv9: Архитектура GELAN (Generalized Efficient Layer Aggregation Network), используемая в YOLOv9, включает в себя функции активации типа GELU или SiLU, что способствует высокой точности и эффективности в задачах обнаружения объектов, как подробно описано в статье YOLOv9. Смотри сравнение между YOLOv9 и YOLOv8.

Способность функции обеспечивать плавную нелинейность и учитывать величину входного сигнала при принятии решения об активации делает ее эффективной для обучения глубоких сетей. Хотя она немного более вычислительно трудоемка, чем ReLU, ее преимущества в производительности часто оправдывают ее использование в крупномасштабных моделях, доступных через такие фреймворки, как PyTorch и TensorFlow. Ты можешь изучить различные модели и обучить их с помощью таких инструментов, как Ultralytics HUB.

GELU (Gaussian Error Linear Unit)

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Как работает GELU

Сравнение с другими функциями активации

Преимущества GELU

Недостатки и соображения

Применение и значение

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

GELU (Gaussian Error Linear Unit)

Обучай модели YOLO простос помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Как работает GELU

Сравнение с другими функциями активации

Преимущества GELU

Недостатки и соображения

Применение и значение

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Обучай модели YOLO просто
с помощью Ultralytics HUB.