Глоссарий

Сглаживание этикетки

Повысь точность и устойчивость моделей ИИ с помощью сглаживания меток - проверенной техники, позволяющей улучшить обобщение и уменьшить чрезмерную уверенность.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Сглаживание меток - это техника регуляризации, используемая во время обучения моделей классификации в машинном обучении (ML) и глубоком обучении (DL). Ее главная цель - не дать модели стать слишком самоуверенной в своих предсказаниях. Вместо того чтобы обучать модель, используя "жесткие" метки (когда правильному классу присваивается вероятность 1, а всем остальным классам - 0), сглаживание меток использует "мягкие" метки. Это значит, что правильному классу присваивается чуть меньшая вероятность (например, 0,9), а небольшая оставшаяся вероятность равномерно распределяется между неправильными классами. Эта техника побуждает модель быть менее уверенной в своих предсказаниях, что может привести к лучшему обобщению и улучшению производительности на невидимых данных. В частности, она обсуждалась в статье Rethinking the Inception Architecture.

Как работает разглаживание этикеток

В стандартных задачах классификации модели часто обучаются с помощью функции потерь, например кросс-энтропии, которая наказывает модель в зависимости от того, насколько далеко ее предсказанное распределение вероятностей от целевого распределения (жесткие метки). При жестких метках модель подталкивают к тому, чтобы выходная вероятность для правильного класса была очень близка к 1, а для остальных - к 0. Это может привести к чрезмерной подгонке, когда модель слишком хорошо изучает обучающие данные, включая шум, и плохо работает на новых данных. Сглаживание меток модифицирует целевые метки, присваивая небольшое значение вероятности (эпсилон) неправильным классам и уменьшая вероятность правильного класса на общую сумму распределений. Это не позволяет модели выдавать чрезмерно большие значения логита для правильного класса, способствуя созданию менее уверенной, но потенциально более надежной модели.

Преимущества разглаживания наклеек

  • Улучшенное обобщение: Отбивая излишнюю самоуверенность, модели часто лучше обобщаются на невидимых данных.
  • Лучшая калибровка модели: Предсказанные вероятности, как правило, более точно отражают истинную вероятность правильности. Подробнее о калибровке моделей ты можешь узнать в статистике.
  • Повышенная устойчивость: Модели могут стать более устойчивыми к зашумленным меткам или незначительным изменениям во входных данных.
  • Уменьшение перебора: Он действует как регуляризатор, помогая смягчить чрезмерную подгонку, что по духу похоже на такие техники, как Dropout или Data Augmentation, хотя он работает непосредственно с целевыми метками.

Применение сглаживания меток

Сглаживание меток широко применимо, особенно в задачах классификации в различных доменах:

  • Классификация изображений: При обучении глубоких нейронных сетей, таких как модели Ultralytics YOLO , на больших наборах данных, таких как ImageNet, сглаживание меток может способствовать повышению точности валидации. Это особенно полезно в таких областях, как анализ медицинских изображений, где важны калиброванные оценки вероятности.
  • Обработка естественного языка (NLP): в таких задачах, как машинный перевод или обучение больших языковых моделей(LLM), таких как BERT или GPT, сглаживание меток помогает улучшить беглость и обобщенность моделей, не позволяя им присваивать абсолютную уверенность конкретным предсказаниям слов. Такие фреймворки, как PyTorch и TensorFlow часто включают опции для сглаживания меток в свои функции потерь.

Соображения

Несмотря на общую пользу, сглаживание меток может немного замедлить сходимость модели во время обучения. Степень его пользы также может зависеть от набора данных и архитектуры модели. Сам коэффициент сглаживания (epsilon) - это гиперпараметр, который может потребовать настройки для достижения оптимальных результатов. Он часто интегрируется в конвейеры обучения современных фреймворков и платформ, таких как Ultralytics HUB.

Читать полностью