Протекающий ReLU

Откройте для себя возможности активации Leaky ReLU для ИИ и ML. Решите проблему умирающего ReLU и повысьте производительность моделей в CV, NLP, GAN и других!

Leaky Rectified Linear Unit, или Leaky ReLU, - это функция активации, используемая в нейронных сетях (НС) и являющаяся прямым улучшением стандартной функции Rectified Linear Unit (ReLU). Она была разработана для решения проблемы "умирающего ReLU", когда нейроны могут стать неактивными и перестать обучаться во время обучения. Вводя небольшой ненулевой наклон для отрицательных входных значений, Leaky ReLU гарантирует, что нейроны всегда будут иметь градиент, что обеспечивает более стабильное и последовательное обучение в моделях глубокого обучения (DL). Эта простая модификация доказала свою эффективность в различных архитектурах, помогая улучшить производительность модели и динамику обучения.

Как протекающий ReLU решает проблему умирающих нейронов

Основная мотивация Leaky ReLU - решение проблемы умирающих нейронов. В стандартной функции ReLU любой отрицательный вход нейрона приводит к нулевому выходу. Если нейрон постоянно получает отрицательный вход, он всегда будет выдавать на выходе ноль. Следовательно, градиент, проходящий через этот нейрон в процессе обратного распространения, также будет равен нулю. Это означает, что веса нейрона больше не обновляются, и он фактически перестает участвовать в процессе обучения - он "умирает".

Leaky ReLU решает эту проблему, обеспечивая небольшой положительный градиент, когда устройство не активно. Вместо того чтобы выдавать ноль при отрицательных входах, он выдает значение, умноженное на небольшую константу ("утечку"). Благодаря этому нейрон никогда не имеет нулевого градиента, что позволяет ему восстанавливаться и продолжать обучение. Впервые этот подход был подробно описан в статье " Эмпирическая оценка выпрямленных активаций в конволюционной сети".

Применение в реальном мире

Способность Leaky ReLU способствовать более стабильному обучению сделала его ценным в нескольких областях искусственного интеллекта (ИИ).

Генеративные адверсарные сети (ГАС): Негерметичный ReLU часто используется в сетях дискриминаторов генеративных адверсарных сетей (GAN). В GAN соблюдается тонкий баланс между генератором и дискриминатором, и исчезающие градиенты стандартного ReLU могут дестабилизировать это обучение. Как объясняется в таких ресурсах, как блог разработчиков Google о GAN, последовательные, ненулевые градиенты Leaky ReLU помогают обеим сетям обучаться более эффективно, что приводит к созданию синтетических данных более высокого качества.
Модели обнаружения объектов: В ранних, но влиятельных моделях обнаружения объектов, включая некоторые версии YOLO, использовался Leaky ReLU. В глубоких конволюционных нейронных сетях (CNN) отмирание нейронов может помешать модели изучить важные функции. Leaky ReLU помогает гарантировать, что все нейроны остаются активными, улучшая способность модели обнаруживать объекты в различных наборах данных, таких как COCO. Хотя многие современные архитектуры, такие как Ultralytics YOLO11, теперь используют более продвинутые функции, Leaky ReLU был ключевым компонентом в создании их основ.

Негерметичный ReLU в сравнении с другими функциями активации

Leaky ReLU - одна из нескольких функций активации, разработанных для улучшения оригинальной ReLU. Понимание ее взаимосвязи с другими помогает выбрать подходящую функцию для конкретной задачи.

ReLU: Ключевое различие заключается в том, что ReLU полностью неактивен для отрицательных входов, в то время как Leaky ReLU поддерживает небольшой постоянный градиент.
SiLU и GELU: Новые функции активации, такие как SiLU (Sigmoid Linear Unit) и GELU (Gaussian Error Linear Unit), обеспечивают плавные, немонотонные кривые, что иногда приводит к повышению точности. Их часто можно встретить в продвинутых моделях типа Transformers. Однако они сложнее с вычислительной точки зрения, чем простая линейная операция Leaky ReLU. Подробный обзор функций активации может дать дополнительные сравнения.
Параметрический ReLU (PReLU): PReLU - это вариант, в котором коэффициент утечки изучается в процессе обучения, что делает его параметром модели, а не фиксированным гиперпараметром.

Оптимальный выбор функции активации часто зависит от конкретной архитектуры, набора данных (например, доступных на Ultralytics Datasets) и результатов настройки гиперпараметров. Leaky ReLU остается сильным выбором благодаря своей простоте, низким вычислительным затратам и эффективности в предотвращении гибели нейронов.

Основные фреймворки глубокого обучения, такие как PyTorch и TensorFlow, предоставляют простые реализации, как видно из официальной документации к LeakyReLU от PyTorch и LeakyReLU от TensorFlow. Такая доступность позволяет разработчикам легко экспериментировать и интегрировать их в свои модели с помощью таких платформ, как Ultralytics HUB.

Протекающий ReLU

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое решение для корпоративного лицензирования, обеспечивающее инновации

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как протекающий ReLU решает проблему умирающих нейронов

Применение в реальном мире

Негерметичный ReLU в сравнении с другими функциями активации

Подробнее в этой категории

Бережливое производство в компьютерном зрении

Точность против точности против отзыва в машинном обучении

Межрейтинговая надежность: Определение, примеры, расчеты

Присоединяйтесь к сообществу Ultralytics