Глоссарий

Регуляризация

Предотврати перебор и улучши обобщение модели с помощью таких методов регуляризации, как L1, L2, dropout и early stopping. Узнай больше!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Регуляризация - это набор методов, используемых в машинном обучении (ML) для предотвращения распространенной проблемы, называемой оверфиттингом. Переподгонка возникает, когда модель слишком хорошо усваивает обучающие данные, включая их шум и случайные колебания, что негативно сказывается на работе модели на новых, невидимых данных. Методы регуляризации вводят штраф за сложность модели, поощряя ее к изучению более простых паттернов, которые лучше обобщаются на новые данные. Это очень важно для построения надежных моделей ИИ, в том числе тех, что используются в компьютерном зрении (КВ) и обработке естественного языка (ОЯ).

Важность в машинном обучении

Регуляризация является основополагающей для обучения надежных ML-моделей, особенно таких сложных, как модели глубокого обучения (DL) и нейронные сети (NN). Без регуляризации эти модели могут легко запоминать обучающие данные, а не изучать лежащие в их основе закономерности. Это приводит к высокой точности на обучающем множестве, но низкой производительности на валидационных данных или реальных исходных данных. Добавляя штрафной член к функции потерь, регуляризация помогает контролировать величину весов модели, эффективно упрощая модель и улучшая ее способность к обобщению. Этот баланс между соответствием данным и сохранением простоты часто обсуждается в контексте компромисса между смещением и дисперсией. Для таких моделей, как Ultralytics YOLOрегуляризация способствует достижению высокой точности в таких сложных задачах, как обнаружение объектов в реальном времени.

Распространенные техники регуляризации

Широко используется несколько методов регуляризации:

  • Регуляризация L1 (Лассо): Добавляет штраф, равный абсолютному значению величины коэффициентов. Это может привести к тому, что некоторые веса станут равны нулю, эффективно выполняя отбор признаков. Узнай больше о регрессии Лассо.
  • Регуляризация L2 (Ridge): Добавляет штраф, равный квадрату величины коэффициентов. Она уменьшает веса в сторону нуля, но редко делает их точно нулевыми. Узнай больше о гребневой регрессии.
  • Выпадающий слой: В первую очередь он используется в нейронных сетях: во время обучения отсеивающий слой случайным образом устанавливает часть выходов нейронов на ноль. Это не позволяет нейронам слишком сильно коадаптироваться и заставляет сеть обучаться более надежным характеристикам. Подробности см. в оригинальной статье про Dropout.
  • Ранняя остановка: Во время обучения следи за производительностью модели на валидационном множестве и останавливай процесс обучения, когда производительность перестает улучшаться, предотвращая перестройку модели по мере обучения. Это обычная практика, которая обсуждается в советах по обучению моделей.
  • Дополнение данных: Увеличивает разнообразие обучающих данных, применяя случайные преобразования (например, поворот, масштабирование, кадрирование) к имеющимся данным. Это помогает модели стать более инвариантной к таким вариациям. Изучи техники дополнения данных.

Отличия от родственных концепций

Регуляризация отличается от других важных концепций ML:

  • Алгоритм оптимизации: Алгоритмы вроде градиентного спуска или оптимизатора Адама используются для минимизации функции потерь и обновления параметров модели в процессе обучения. Регуляризация изменяет эту функцию потерь, добавляя штрафной член, направляя процесс оптимизации в сторону более простых моделей, но сама она не является алгоритмом оптимизации.
  • Настройка гиперпараметров: Это включает в себя поиск оптимальных гиперпараметров (например, скорости обучения, количества слоев) для модели, часто используя такие техники, как поиск по сетке, или автоматизированные методы, доступные в таких платформах, как Ultralytics HUB. Сила регуляризации (например, коэффициент штрафа в L1/L2) сама по себе является гиперпараметром, который нужно настраивать, но регуляризация - это применяемая техника, а настройка гиперпараметров - это процесс установки ее силы вместе с другими параметрами.

Применение в реальном мире

Методы регуляризации необходимы для практического успеха многих приложений ИИ:

Пример 1: Классификация изображений

В классификации изображений глубокие нейронные сети, такие как CNN, могут иметь миллионы параметров. Без регуляризации (например, Dropout или L2) эти модели могут легко перестраиваться под такие наборы данных, как ImageNet. Регуляризация помогает модели изучать общие визуальные признаки (края, текстуры, формы), а не запоминать конкретные обучающие изображения, что приводит к повышению точности классификации новых изображений, встречающихся в самых разных приложениях - от анализа медицинских изображений до автономного вождения. Узнай, как решается проблема избыточной подгонки в проектах по компьютерному зрению.

Пример 2: Обработка естественного языка

В таких задачах NLP, как анализ настроения или машинный перевод, модели, подобные трансформерам, также могут страдать от чрезмерной подгонки, особенно при ограниченном количестве обучающих данных. Чтобы модель не слишком полагалась на конкретные слова или фразы, присутствующие только в обучающем корпусе, применяются методы регуляризации, включая отсев и уменьшение веса (L2). Это улучшает способность модели понимать и генерировать человеческий язык более эффективно в реальных сценариях, таких как чат-боты или инструменты для обобщения контента.

Читать полностью