Глоссарий

Нормализация

Открой для себя силу нормализации в машинном обучении! Узнай, как она улучшает обучение моделей, повышает производительность и обеспечивает надежность ИИ-решений.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Нормализация - это фундаментальная техника предварительной обработки данных, которая широко используется в машинном обучении (ML) и науке о данных. Ее основная цель - привести числовые характеристики данных к общему стандартному диапазону, часто между 0 и 1 или -1 и 1, не искажая различий в диапазонах значений. Этот процесс обеспечивает более равный вклад всех характеристик в обучение модели, не позволяя характеристикам с изначально большими значениями (например, зарплата) непропорционально сильно влиять на результат по сравнению с характеристиками с меньшими значениями (например, стаж работы). Нормализация особенно важна для алгоритмов, чувствительных к масштабированию признаков, таких как методы на основе градиентного спуска, используемые в глубоком обучении (DL).

Почему нормализация имеет значение

Наборы данных реального мира часто содержат характеристики с совершенно разными масштабами и единицами измерения. Например, в наборе данных для прогнозирования оттока клиентов "баланс счета" может варьироваться от сотен до миллионов, а "количество продуктов" - от 1 до 10. Без нормализации алгоритмы ML, вычисляющие расстояния или использующие градиенты, такие как вспомогательные векторные машины (SVM) или нейронные сети (NN), могут ошибочно воспринимать признак с большим диапазоном как более важный просто из-за его масштаба. Нормализация выравнивает игровое поле, гарантируя, что вклад каждого признака основан на его предсказательной силе, а не на его величине. Это приводит к ускорению сходимости в процессе обучения, повышению точности модели и созданию более стабильных и надежных моделей, что очень полезно при обучении таких моделей, как Ultralytics YOLO для таких задач, как обнаружение объектов.

Распространенные техники нормализации

Существует несколько методов изменения масштаба данных:

  • Мин-макс масштабирование: Это, пожалуй, самая распространенная техника нормализации. Она линейно масштабирует признаки в фиксированный диапазон, обычно [0, 1]. Минимальное значение в исходном признаке становится 0, максимальное - 1, а все остальные значения пропорционально попадают в промежуток. Этот метод чувствителен к выбросам.
  • Стандартизация Z-score: Хотя стандартизацию часто объединяют с нормализацией, технически она отличается от нее. Она изменяет масштаб данных так, чтобы среднее значение было равно 0, а стандартное отклонение - 1. В отличие от масштабирования Min-Max, она не привязывает значения к определенному диапазону, что может быть полезно для алгоритмов, предполагающих данные с нулевым центром. Узнай больше о предварительной обработке в Scikit-learn.

Выбор между этими методами часто зависит от конкретного набора данных и требований используемого алгоритма ML. Ты можешь найти руководства по предварительной обработке аннотированных данных, которая часто включает в себя шаги по нормализации.

Нормализация против стандартизации против пакетной нормализации

Важно отличать нормализацию от смежных понятий:

  • Нормализация (Min-Max Scaling): Масштабируй данные в фиксированный диапазон (например, от 0 до 1). Полезно, когда значения характеристик должны быть ограничены.
  • Стандартизация (Z-score): Центрирует данные вокруг среднего значения, равного 0, и стандартного отклонения, равного 1. Менее подвержен влиянию выбросов, чем шкала Min-Max, и часто предпочтителен для алгоритмов, предполагающих нормально распределенные или центрированные на нуле данные.
  • Пакетная нормализация: Это техника, применяемая внутри слоев глубокой нейронной сети во время обучения, а не общий шаг предварительной обработки данных, применяемый перед этим. Она нормализует активации предыдущего слоя для каждой мини-партии, помогая стабилизировать обучение и уменьшить смещение внутренних ковариаций.

Применение нормализации

Нормализация - это повсеместный этап подготовки данных для различных задач ИИ и МЛ:

  1. Обработка изображений: В компьютерном зрении (КВ) значения пикселей в изображениях (обычно в диапазоне от 0 до 255) часто нормализуются к диапазону [0, 1] или [-1, 1] перед тем, как попасть в модели для таких задач, как классификация изображений или их сегментация. Это обеспечивает последовательное масштабирование входных данных для конволюционных нейронных сетей (КНС). Многие популярные наборы данных CV выигрывают от такой предварительной обработки.
  2. Слияние данных с нескольких датчиков: При объединении данных с различных датчиков с разным масштабом измерений (например, температура, давление, влажность) для прогнозной модели нормализация гарантирует, что показания одного датчика не будут доминировать над остальными только из-за их масштаба. Это актуально в таких областях, как робототехника или автономные транспортные средства.
  3. Анализ медицинских изображений: Подобно общей обработке изображений, анализ медицинских изображений часто требует нормализации интенсивности пикселей или вокселей на разных сканах (например, МРТ, КТ), чтобы учесть различия в оборудовании и протоколах визуализации, что помогает в таких задачах, как обнаружение опухолей.

В общем, нормализация - это важный этап предварительной обработки, который позволяет масштабировать характеристики данных в единый диапазон, улучшая процесс обучения, стабильность и производительность многих моделей машинного обучения, включая те, которые разрабатываются и обучаются с помощью таких инструментов, как Ultralytics HUB. Она обеспечивает справедливый вклад признаков и необходима для алгоритмов, чувствительных к масштабу входных данных.

Читать полностью