Повысь точность и устойчивость моделей ИИ с помощью сглаживания меток - проверенной техники, позволяющей улучшить обобщение и уменьшить чрезмерную уверенность.
Сглаживание меток - это техника регуляризации, используемая во время обучения моделей классификации в машинном обучении (ML) и глубоком обучении (DL). Ее главная цель - не дать модели стать слишком самоуверенной в своих предсказаниях. Вместо того чтобы обучать модель, используя "жесткие" метки (когда правильному классу присваивается вероятность 1, а всем остальным классам - 0), сглаживание меток использует "мягкие" метки. Это значит, что правильному классу присваивается чуть меньшая вероятность (например, 0,9), а небольшая оставшаяся вероятность равномерно распределяется между неправильными классами. Эта техника побуждает модель быть менее уверенной в своих предсказаниях, что может привести к лучшему обобщению и улучшению производительности на невидимых данных. В частности, она обсуждалась в статье Rethinking the Inception Architecture.
В стандартных задачах классификации модели часто обучаются с помощью функции потерь, например кросс-энтропии, которая наказывает модель в зависимости от того, насколько далеко ее предсказанное распределение вероятностей от целевого распределения (жесткие метки). При жестких метках модель подталкивают к тому, чтобы выходная вероятность для правильного класса была очень близка к 1, а для остальных - к 0. Это может привести к чрезмерной подгонке, когда модель слишком хорошо изучает обучающие данные, включая шум, и плохо работает на новых данных. Сглаживание меток модифицирует целевые метки, присваивая небольшое значение вероятности (эпсилон) неправильным классам и уменьшая вероятность правильного класса на общую сумму распределений. Это не позволяет модели выдавать чрезмерно большие значения логита для правильного класса, способствуя созданию менее уверенной, но потенциально более надежной модели.
Сглаживание меток широко применимо, особенно в задачах классификации в различных доменах:
Несмотря на общую пользу, сглаживание меток может немного замедлить сходимость модели во время обучения. Степень его пользы также может зависеть от набора данных и архитектуры модели. Сам коэффициент сглаживания (epsilon) - это гиперпараметр, который может потребовать настройки для достижения оптимальных результатов. Он часто интегрируется в конвейеры обучения современных фреймворков и платформ, таких как Ultralytics HUB.