Сглаживание меток - это техника регуляризации, используемая в основном в задачах классификации в рамках машинного обучения (ML) и глубокого обучения (DL). Ее основная цель - не дать моделям стать слишком уверенными в своих предсказаниях на основе обучающих данных. При стандартном обучении классификации с помощью контролируемого обучения модели часто обучаются на "жестких" метках, обычно представленных в формате одноточечного кодирования, где правильному классу присваивается вероятность 1, а всем остальным классам - 0. Сглаживание меток модифицирует эти жесткие цели в "мягкие", немного уменьшая уверенность, приписываемую правильному классу, и распределяя небольшую массу вероятности между неправильными классами. Это побуждает модель быть менее уверенной и, возможно, лучше обобщать данные, не встречающиеся в поле зрения.
Как работает разглаживание этикеток
Вместо того чтобы использовать строгое значение 1 для правильного класса и 0 для остальных (одномоментное кодирование), сглаживание меток корректирует эти целевые вероятности. Например, если у нас есть K
классов и коэффициент сглаживания alpha
Тогда целевая вероятность для правильного класса становится 1 - alpha
И вероятность каждого неправильного класса становится равной alpha / (K-1)
. Эта небольшая поправка означает, что модель будет наказана, если в процессе обучения она присвоит одному классу чрезвычайно высокую вероятность (близкую к 1), так как сама целевая метка не выражает абсолютной уверенности. Эта техника обсуждалась, в частности, в контексте обучения продвинутых моделей классификации изображений в "Переосмысление архитектуры Inception для компьютерного зрения" бумага.
Преимущества разглаживания наклеек
Применение сглаживания меток может дать несколько преимуществ:
- Улучшенная обобщенность: Не позволяя модели слишком специализироваться на точных паттернах в обучающих данных (уменьшая переподгонку), она часто лучше работает на новых, невидимых данных. Обобщение - одна из ключевых целей в ML.
- Лучшая калибровка модели: Модели, обученные с помощью сглаживания меток, обычно выдают оценки вероятности, которые лучше отражают истинную вероятность того, что предсказание окажется верным. Это значит, что предсказанная уверенность в 80% с большей вероятностью будет соответствовать фактической точности в 80%. Понимание калибровки моделей крайне важно для создания надежных систем ИИ.
- Уменьшение чрезмерной уверенности: Это напрямую решает проблему, связанную с тем, что модели приписывают прогнозам почти абсолютную уверенность, что может быть проблематично в реальных приложениях, где существует неопределенность. Чрезмерная уверенность может привести к принятию неправильных решений.
- Эффект регуляризации: он действует как форма регуляризации, подобно таким техникам, как отсев или уменьшение веса, добавляя шум в метки, тем самым ограничивая сложность выученных весов модели.
Применение и примеры
Сглаживание меток широко применяется в сценариях классификации в различных областях:
- Классификация изображений: В крупномасштабных задачах классификации изображений, таких как обучение на наборе данных ImageNet, сглаживание меток помогает моделям лучше обобщаться и достигать более высокой точности на проверочных наборах. Такие модели, как Vision Transformers (ViT), часто извлекают пользу из этой техники во время обучения. Ты можешь обучать модели классификации с помощью таких инструментов, как Ultralytics HUB.
- Обработка естественного языка (NLP): в таких задачах, как машинный перевод или классификация текста, где используются модели вроде трансформеров, сглаживание меток может улучшить производительность, не позволяя модели слишком уверенно предсказывать конкретные слова или классифицировать их, особенно учитывая присущую языку неоднозначность.
- Распознавание речи: Как и в NLP, модели распознавания речи могут извлечь пользу из сглаживания меток, чтобы справиться с вариациями произношения и потенциальными неточностями транскрипции в обучающих данных.
Несмотря на то, что такие техники, как сглаживание меток, не всегда явно прописаны в каждой архитектуре, они часто являются частью стандартных рецептов обучения для самых современных моделей, включая модели обнаружения объектов, такие как Ultralytics YOLO на этапах классификации, хотя их влияние может варьироваться в зависимости от конкретной задачи и набора данных.
Смежные понятия
- Одноходовое кодирование: Стандартный метод представления категориальных меток, при котором сглаживание меток вводит модификацию. One-hot encoding присваивает 1 истинному классу и 0 остальным.
- Дистилляция знаний: Эта техника также использует мягкие цели, но цель у нее другая. Knowledge Distillation использует вероятностные выходы более крупной, предварительно обученной модели "учителя" в качестве мягких меток для обучения более мелкой модели "ученика", передавая ей полученные знания. Сглаживание меток - это самостоятельная техника регуляризации, применяемая во время стандартного обучения.
- Функции потерь: Сглаживание меток обычно используется в сочетании с функциями потерь, такими как кросс-энтропия, изменяя целевое распределение, по которому вычисляется потеря.
- Регуляризация: Она относится к более широкой категории методов регуляризации, направленных на улучшение обобщения модели и предотвращение перебора. Другие примеры - Dropout и L1/L2-регуляризация.
Соображения
Несмотря на свою пользу, сглаживание меток требует осторожного применения. Коэффициент сглаживания (альфа) - это гиперпараметр, который нужно настраивать; слишком маленькое значение может дать незначительный эффект, в то время как слишком большое значение может помешать обучению, сделав метки слишком неинформативными. Его влияние на калибровку модели, хотя оно часто бывает положительным, должно оцениваться в зависимости от конкретного приложения, что в некоторых случаях может потребовать применения методов калибровки post-hoc. Это простой, но эффективный инструмент, часто используемый в современных фреймворках глубокого обучения, таких как PyTorch и TensorFlow.