Глоссарий

Заниженная посадка

Узнайте, как выявлять, предотвращать и устранять недостаточное соответствие в моделях машинного обучения, используя советы экспертов, стратегии и реальные примеры.

Недооптимизация - распространенная проблема машинного обучения (ML), когда модель слишком проста, чтобы отразить основные закономерности в обучающих данных. Такая простота не позволяет ей изучить взаимосвязь между входными признаками и целевой переменной, что приводит к низкой производительности как на данных, на которых она обучалась, так и на новых, неизвестных данных. Недооптимизированная модель имеет высокую погрешность, то есть она делает сильные, часто неверные, предположения о данных. Это приводит к тому, что модель не может достичь высокого уровня точности и не способна к обобщению.

Недоучет и переучет. Overfitting

Недоучет и переучет - две ключевые проблемы в ML, связанные со способностью модели обобщать данные обучения на новые данные. Они представляют собой две крайности на спектре сложности модели.

  • Недооценка: Модель слишком проста и имеет высокую погрешность. Она не способна изучить глубинную структуру данных, что приводит к высокому значению функции потерь и низкой производительности как на обучающих, так и на проверочных наборах данных.
  • Переоценка: Модель слишком сложна и имеет высокую дисперсию. Она слишком хорошо изучает обучающие данные, включая шум и случайные флуктуации. Это приводит к отличной производительности на обучающем множестве, но к плохой производительности на невидимых данных, поскольку модель, по сути, запомнила обучающие примеры вместо того, чтобы изучать общие закономерности.

Конечная цель ML - найти баланс между этими двумя понятиями, известный как компромисс между смещением и дисперсией, чтобы создать модель, которая эффективно обобщает новые сценарии реального мира. Анализ кривых обучения является распространенным методом диагностики того, является ли модель недоукомплектованной, переукомплектованной или хорошо укомплектованной.

Причины и решения проблемы недостаточной посадки

Выявление и устранение недостаточной подгонки имеет решающее значение для построения эффективных моделей. Проблема обычно обусловлена несколькими общими причинами, каждая из которых имеет соответствующие решения.

  • Модель слишком проста: Использование линейной модели для решения сложной нелинейной задачи - классическая причина недостаточной подгонки.
    • Решение: Повысить сложность модели. Это может включать в себя переход к более мощной архитектуре модели, такой как более глубокая нейронная сеть или более крупная предварительно обученная модель, например, переход от меньшего к большему варианту модели Ultralytics YOLO. Вы можете изучить различные сравнения моделей YOLO, чтобы выбрать более подходящую архитектуру.
  • Недостаточные или некачественные характеристики: Если входные признаки, предоставляемые модели, не содержат достаточно информации для точного прогнозирования, модель будет недооснащена.
  • Недостаточная подготовка: Возможно, модель была обучена недостаточно эпохи для изучения закономерностей в данных.
  • Чрезмерная регуляризация: Такие техники, как Регуляризация L1 и L2 или высокий отсев коэффициенты используются для предотвращения избыточной подгонки, но если они слишком агрессивны, то могут слишком сильно ограничить модель и привести к недостаточной подгонке.
    • Решение: Уменьшите количество регуляризации. Это может означать уменьшение штрафного члена в функциях регуляризации или снижение коэффициента отсева. Следование лучшим практикам обучения моделей поможет найти правильный баланс.

Реальные примеры недостаточной подгонки

  1. Простой классификатор изображений: Представьте, что вы обучаете очень простую конволюционную нейронную сеть (CNN), состоящую всего из одного или двух слоев, сложной задаче классификации изображений, например, определению тысяч категорий объектов в наборе данных ImageNet. Ограниченные возможности модели не позволят ей научиться сложным характеристикам, необходимым для различения такого количества классов, что приведет к низкой точности как на обучающих, так и на тестовых данных. Такие фреймворки, как PyTorch и TensorFlow, предоставляют инструменты для создания более сложных архитектур, позволяющих преодолеть эту проблему.
  2. Основы прогнозируемого обслуживания: Рассмотрите возможность использования простой линейной регрессионной модели для прогнозирования, чтобы определить, когда машина выйдет из строя, основываясь только на ее рабочей температуре. Если на отказы машин на самом деле влияет сложное, нелинейное взаимодействие таких факторов, как вибрация, возраст и давление, простая линейная модель окажется недостаточно эффективной. Она не сможет отразить истинную сложность системы, что приведет к плохому прогнозированию и невозможности точного предвидения отказов. Более сложная модель, например, градиентная повышающая машина или нейронная сеть, будет более подходящей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена