Глоссарий

Оверфиттинг

Узнай, как выявлять, предотвращать и устранять перебор в машинном обучении. Открой для себя техники, позволяющие улучшить обобщение моделей и повысить их производительность в реальном мире.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Оверфиттинг в машинном обучении возникает, когда модель слишком хорошо изучает обучающие данные, улавливая шум и случайные флуктуации вместо основной закономерности. Это приводит к отличной работе на обучающем наборе данных, но плохой обобщенности на новые, невидимые данные. По сути, модель становится слишком сложной и подстраивается под обучающие данные, словно запоминает ответы вместо того, чтобы понимать концепции. Это распространенная проблема при обучении моделей ИИ, особенно сложных алгоритмов вроде нейронных сетей, используемых в Ultralytics YOLO для таких задач, как обнаружение объектов и сегментация изображений.

Понимание оверфиттинга

Оверфиттинг возникает потому, что модели машинного обучения стремятся минимизировать ошибки на обучающих данных. Однако если модель чрезмерно сложна, она может подогнать под себя даже шум, присутствующий в обучающем наборе. Этот шум не отражает истинных закономерностей и меняется в новых наборах данных. Подумай об этом, как об идеальном пошиве костюма по точным меркам одного человека в определенный день - он может плохо сидеть, если вес этого человека будет колебаться или если его попытается надеть кто-то другой. В машинном обучении такая "идеальная посадка" на обучающих данных приводит к негибкости и низкой производительности на реальных данных.

Противоположностью чрезмерной подгонки является недостаточная подгонка, когда модель слишком проста, чтобы отразить глубинную структуру данных. Недооптимизированная модель плохо работает как на обучающих, так и на новых данных, потому что она недостаточно хорошо обучилась. Цель состоит в том, чтобы найти баланс, который часто называют компромиссом между смещением и дисперсией, чтобы создать модель, которая хорошо обобщает.

Реальные примеры избыточной подгонки

  1. Анализ медицинских изображений: В анализе медицинских изображений для выявления заболеваний модель с избыточной приспособленностью может стать исключительно хорошей в определении заболеваний на конкретном наборе изображений, на котором она обучалась, и даже распознавать уникальные артефакты или шумы, присутствующие только в этом наборе данных. Однако при получении новых медицинских изображений с разных аппаратов или от разных групп пациентов модель может оказаться неспособной к обобщению, что приведет к неточным диагнозам в реальных клинических условиях. Например, модель, обученная обнаруживать опухоли по снимкам МРТ, может слишком подстроиться под характеристики конкретного МРТ-сканера и плохо работать со снимками, полученными с другого сканера, даже если основная патология одна и та же.

  2. Анализ настроения: Рассмотрим модель анализа настроения, обученную классифицировать отзывы покупателей как положительные или отрицательные. При чрезмерной настройке модель может стать слишком чувствительной к определенным словам или фразам, преобладающим в обучающем наборе данных отзывов. Например, если в обучающих данных много отзывов, в которых упоминается определенная особенность продукта, модель может неверно ассоциировать само наличие этой особенности с позитивным настроем, даже если контекст в новых отзывах будет другим. Это может привести к неправильной классификации новых отзывов покупателей, в которых используется похожий язык, но выражается другое мнение.

Предотвращение чрезмерной подгонки

Несколько техник могут помочь смягчить чрезмерную подгонку:

  • Увеличь количество тренировочных данных: Предоставление более разнообразных и репрезентативных тренировочных данных может помочь модели научиться более надежным закономерностям и уменьшить зависимость от шума. Техники увеличения данных, подобные тем, что используются в Ultralytics YOLO , могут искусственно увеличить размер и вариативность обучающего набора.
  • Упрости модель: Уменьшение сложности модели, например, уменьшение количества слоев или параметров в нейронной сети, может предотвратить запоминание шума. Такие техники, как обрезка модели, позволяют систематически удалять менее важные связи в обученной сети, чтобы упростить ее.
  • Регуляризация: Методы регуляризации добавляют ограничения в процесс обучения, чтобы наказать слишком сложные модели. К распространенным методам относятся L1 и L2 регуляризация, отсев и пакетная нормализация.
  • Кросс-валидация: Использование таких техник, как перекрестная валидация K-Fold, помогает оценить, насколько хорошо модель обобщается на невидимых данных, путем обучения и оценки ее на нескольких подмножествах данных.
  • Ранняя остановка: Мониторинг производительности модели на валидационном наборе во время обучения и раннее прекращение обучения, когда производительность валидации начинает ухудшаться, может предотвратить чрезмерную подгонку. Это не позволит модели продолжать изучать шумы из тренировочных данных.

Понимая и устраняя проблему оверфиттинга, разработчики могут создавать более надежные и эффективные модели ИИ для различных приложений, обеспечивая их хорошую работу в реальных сценариях за пределами тренировочной среды. Такие инструменты, как Ultralytics HUB, могут помочь в отслеживании экспериментов и оценке моделей, помогая обнаружить и устранить перефиттинг в процессе разработки модели.

Читать полностью