Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Исчезающий градиент

Узнайте, как проблема исчезающего градиента влияет на глубокое обучение, и изучите эффективные решения, такие как ReLU и остаточные соединения, используемые в Ultralytics .

Проблема исчезающего градиента — это серьезная проблема, с которой сталкиваются при обучении глубоких искусственных нейронных сетей. Она возникает, когда градиенты — значения, определяющие, насколько должны изменяться параметры сети — становятся невероятно малыми при обратном распространении от выходного слоя к входным слоям. Поскольку эти градиенты необходимы для обновления весов модели, их исчезновение означает, что более ранние слои сети перестают учиться. Это явление фактически мешает модели улавливать сложные закономерности в данных, ограничивая глубину и производительность архитектур глубокого обучения.

Механика исчезающих сигналов

Чтобы понять, почему это происходит, полезно рассмотреть процесс обратного распространения. Во время обучения сеть вычисляет ошибку между своим прогнозом и фактической целью с помощью функции потерь. Затем эта ошибка отправляется назад через слои для корректировки весов. Эта корректировка основана на правиле цепочки в математическом анализе, которое предполагает умножение производных функций активации слой за слоем.

Если сеть использует функции активации, такие как сигмоидная функция или гиперболическая тангенс (tanh), производные часто меньше 1. Когда многие из этих небольших чисел умножаются друг на друга в глубокой сети с десятками или сотнями слоев, результат приближается к нулю. Это можно представить как игру в «телефон», когда сообщение шепчут по длинной цепочке людей; к тому времени, когда оно доходит до начала цепочки, сообщение становится неразборчивым, и первый человек не знает, что сказать.

Решения и современные архитектуры

В области ИИ было разработано несколько надежных стратегий для смягчения исчезающих градиентов, что позволило создать мощные модели, такие как Ultralytics .

  • ReLU и варианты: Выпрямленная линейная функция (ReLU) и ее преемники, такие как Leaky ReLU и SiLU, не насыщаются для положительных значений. Их производные равны либо 1, либо небольшой константе, сохраняя величину градиента через глубокие слои.
  • Остаточные соединения: введенные в остаточных сетях (ResNets), это «пропускные соединения», которые позволяют градиенту обходить один или несколько слоев. Это создает «супермагистраль» для беспрепятственного прохождения градиента к более ранним слоям, что является важной концепцией для современного обнаружения объектов.
  • Пакетная нормализация: путем нормализации входных данных каждого слоя пакетная нормализация обеспечивает стабильную работу сети, в которой производные не слишком малы, что снижает зависимость от тщательной инициализации.
  • Архитектуры с воротами: для последовательных данных сети с длинной краткосрочной памятью (LSTM) и GRU используют специальные ворота, чтобы решить, сколько информации сохранить или забыть, эффективно защищая градиент от исчезновения в длинных последовательностях.

Исчезающие и взрывные градиенты

Хотя они происходят из одного и того же базового механизма (повторяющееся умножение), исчезающие градиенты отличаются от взрывающихся градиентов.

  • Исчезающий градиент: градиенты приближаются к нулю, что приводит к остановке обучения. Это часто встречается в глубоких сетях с сигмоидными активациями.
  • Взрывной градиент: Градиенты накапливаются и становятся чрезмерно большими, вызывая веса модели сильно колебаться или достигать NaN (Не число). Часто это исправляется с помощью отрезку градиента.

Применение в реальном мире

Преодоление исчезающих градиентов стало необходимым условием для успеха современных приложений искусственного интеллекта.

  1. Глубокое обнаружение объектов: модели, используемые для автономных транспортных средств, такие как YOLO , требуют сотен слоев для различения пешеходов, знаков и транспортных средств. Без таких решений, как остаточные блоки и пакетная нормализация, обучение этих глубоких сетей на огромных наборах данных, таких как COCO , было бы невозможно. Такие инструменты, как Ultralytics , помогают оптимизировать этот процесс обучения, обеспечивая правильную конвергенцию этих сложных архитектур.
  2. Машинный перевод: в обработке естественного языка (NLP) перевод длинного предложения требует понимания взаимосвязи между первым и последним словами. Решение проблемы исчезающего градиента в RNN (с помощью LSTM), а затем и в Transformers позволило моделям сохранять контекст в длинных абзацах, что произвело революцию в услугах машинного перевода Google таких Google Translate.

Python

Современные фреймворки и модели абстрагируют многие из этих сложностей. При обучении модели, такой как YOLO26, архитектура автоматически включает такие компоненты, как активация SiLU и нормализация партий, чтобы предотвратить исчезновение градиентов .

from ultralytics import YOLO

# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")

# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас