Глоссарий

Регуляризация

Предотврати перебор и улучши обобщение модели с помощью таких методов регуляризации, как L1, L2, dropout и early stopping. Узнай больше!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Регуляризация - важнейшая техника в машинном обучении, используемая для предотвращения чрезмерной подгонки и улучшения обобщения能力 моделей на невидимые данные. Она работает за счет добавления дополнительных ограничений в процесс обучения модели, препятствуя созданию слишком сложных моделей, которые запоминают обучающие данные вместо того, чтобы изучать лежащие в их основе закономерности. Это приводит к тому, что модели лучше работают на новых, невидимых данных, что является конечной целью машинного обучения.

Что такое регуляризация?

По сути, регуляризация направлена на упрощение модели за счет штрафа за сложность во время обучения. Сложные модели с большим количеством параметров склонны подстраиваться под шум в обучающих данных, что приводит к плохой производительности на новых данных. Методы регуляризации вводят штрафной член в функцию потерь, которую модель пытается минимизировать. Этот штраф не позволяет модели присваивать признакам слишком большие веса, что способствует созданию более простых и обобщающих моделей. Контролируя сложность модели, регуляризация помогает найти баланс между хорошим соответствием обучающим данным и обобщением на новые данные, решая проблему смещения-вариации.

Виды регуляризации

В машинном обучении обычно используется несколько методов регуляризации, каждый из которых имеет свой собственный подход к пенализации сложности модели. Среди наиболее популярных можно назвать следующие:

  • Регуляризация L1 (Лассо): Добавляет штраф, пропорциональный абсолютному значению весов. Это поощряет разреженность модели, эффективно сводя веса некоторых признаков к нулю и выполняя отбор признаков. Регуляризация L1 может быть особенно полезна при работе с высокоразмерными данными, где многие признаки могут быть нерелевантными.
  • Регуляризация L2 (Ridge): Добавляет штраф, пропорциональный квадрату величины весов. Это уменьшает все веса до нуля, но, в отличие от L1, редко устанавливает их точно в ноль. Регуляризация L2 уменьшает влияние менее важных признаков, не устраняя их полностью, что приводит к созданию более стабильных и надежных моделей.
  • Отсев: Техника, характерная для нейронных сетей, - выпадающие слои случайным образом устанавливают долю нейронов на ноль во время каждой итерации обучения. Это не позволяет нейронам слишком сильно адаптироваться к обучающим данным и заставляет сеть обучаться более надежным и независимым характеристикам. Dropout эффективен для уменьшения избыточной подгонки и улучшения обобщения моделей глубокого обучения.
  • Ранняя остановка: Во время обучения следи за производительностью модели на проверочном наборе данных и прекращай обучение, когда производительность проверки начинает ухудшаться. Это не позволяет модели продолжать слишком хорошо изучать тренировочные данные и терять способность к обобщению. Ранняя остановка - это простая, но эффективная форма регуляризации.

Применение в реальном мире

Регуляризация широко применяется в различных областях ИИ и машинного обучения для улучшения производительности и надежности моделей. Вот несколько примеров:

  • Классификация изображений: В задачах классификации изображений, использующих модели Ultralytics YOLO , часто применяется регуляризация L2 в функции потерь, чтобы предотвратить чрезмерную подгонку, особенно при обучении на небольших наборах данных. Такие техники, как настройка гиперпараметров, могут быть использованы для поиска оптимальной силы регуляризации, балансирующей между точностью и обобщением.
  • Обработка естественного языка (NLP): При использовании моделей для анализа настроения или генерации текста регуляризация отсева может сыграть решающую роль в том, чтобы сложные нейронные сети не запоминали обучающий текст, а вместо этого обучались более общим лингвистическим паттернам. Это приводит к тому, что модели лучше понимают и генерируют новый, невидимый текст.

Применяя методы регуляризации, специалисты по машинному обучению могут создавать более прочные, надежные и обобщающие модели ИИ, которые будут эффективно работать в реальных приложениях. Дальнейшее изучение таких техник, как увеличение данных наряду с регуляризацией, может еще больше повысить производительность и надежность моделей.

Читать полностью