Глоссарий

Функция потерь

Узнай о роли функций потерь в машинном обучении, их видах, значении и реальных приложениях ИИ, таких как YOLO и обнаружение объектов.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

В искусственном интеллекте (ИИ) и машинном обучении (МЛО) функция потерь - это важнейший компонент, используемый во время обучения модели. Она измеряет разницу, или "потерю", между предсказаниями модели и реальными значениями, полученными из обучающих данных. Думай об этом как о балле, который количественно определяет, насколько плохо модель справляется с конкретной задачей. Высокое значение потерь означает, что предсказания далеки от истины, в то время как низкое значение потерь указывает на то, что предсказания близки к реальным значениям. Фундаментальная цель обучения большинства моделей машинного обучения, особенно в глубоком обучении (DL), - минимизировать эту функцию потерь, тем самым сделав модель максимально точной и надежной.

Важность функций потерь

Функции потерь очень важны, потому что они дают конкретную, количественно измеримую цель для процесса обучения модели. Они переводят абстрактную цель "обучение на данных" в математическое значение, которое алгоритм оптимизации может стремиться минимизировать. Этот процесс оптимизации, часто использующий такие техники, как градиентный спуск и обратное распространение, опирается на значение потерь, чтобы итеративно корректировать внутренние параметры модели(веса модели) в направлении, которое уменьшает ошибку предсказания. Выбор подходящей функции потерь очень важен и во многом зависит от конкретной задачи ML, например регрессии, классификации или обнаружения объектов. Использование неправильной функции потерь может привести к неоптимальной работе модели даже при наличии достаточного количества данных и вычислительных ресурсов. Она направляет процесс обучения сложных нейронных сетей (NN).

Типы функций потерь

Для разных задач машинного обучения требуются разные функции потерь, учитывающие характер задачи и желаемый результат. Некоторые распространенные примеры включают:

  • Средняя квадратичная ошибка (MSE): Часто используется в задачах регрессии, где целью является предсказание непрерывного числового значения. Он вычисляет среднее значение квадратичной разницы между предсказанными и фактическими значениями, сильно наказывая большие ошибки.
  • Средняя абсолютная ошибка (Mean Absolute Error, MAE): Еще одна функция потерь в регрессии, которая вычисляет среднее значение абсолютной разницы между предсказаниями и фактическими значениями. Она менее чувствительна к выбросам по сравнению с MSE.
  • Кросс-энтропийная потеря (Log Loss): Стандартная функция потерь для задач классификации. Она измеряет производительность модели классификации, выход которой представляет собой значение вероятности между 0 и 1. Бинарная кросс-энтропия используется для двухклассовых задач, а категориальная кросс-энтропия - для многоклассовых.
  • Потеря петли: в основном используется для обучения машин опорных векторов (SVM) и направлена на максимизацию маржи между классами.
  • Потери при обнаружении объектов: Такие модели, как Ultralytics YOLO используют составные функции потерь, которые часто объединяют несколько компонентов. Например, YOLOv8 использует функцию потерь, которая включает в себя условия для регрессии ограничительной рамки (насколько точно рамка определяет местоположение объекта), классификации (к какому классу принадлежит объект) и иногда объектности (присутствует ли объект в ячейке сетки). Конкретные реализации можно найти в документации к утилитам потерьUltralytics .

Применение в реальном мире

Функции потерь являются основополагающими для обучения моделей во многих приложениях ИИ:

  1. Анализ медицинских изображений: При обучении моделей для обнаружения опухолей или сегментации органов минимизируется такая функция потерь, как Dice Loss или вариант Cross-Entropy. Это заставляет модель предсказывать маски сегментации, которые точно соответствуют аннотациям рентгенологов, что напрямую влияет на точность диагностики при использовании ИИ в здравоохранении.
  2. Автономные транспортные средства: Системы восприятия в самоуправляемых автомобилях используют модели обнаружения объектов, обученные путем минимизации функций потерь. Эти функции штрафуют за ошибки в предсказании местоположения (ограничительные рамки) и класса (пешеход, автомобиль, велосипедист) объектов на дороге, что очень важно для безопасной навигации и предотвращения столкновений. Здесь часто используются моделиYOLO .

Взаимосвязь с другими ключевыми понятиями

Функции потерь тесно связаны с несколькими другими основными концепциями ML:

  • Алгоритмы оптимизации: Функции потерь определяют "ландшафт", по которому перемещаются оптимизаторы. Такие алгоритмы, как Adam Optimizer и Stochastic Gradient Descent (SGD), используют градиент функции потерь для обновления весов модели, ориентируясь на скорость обучения.
  • Метрики оценки: Очень важно отличать функции потерь от таких оценочных метрик, как Accuracy, Precision, Recall, F1-score и mean Average Precision (mAP). Функции потерь используются во время обучения, чтобы направлять процесс оптимизации. Для работы градиентных методов они должны быть дифференцируемыми. Метрики оценки используются после обучения (или во время валидации), чтобы оценить реальную производительность модели на невидимых данных(валидационных или тестовых). Хотя меньшие потери обычно коррелируют с лучшими показателями метрик, они измеряют разные вещи и не всегда напрямую взаимозаменяемы. Например, оптимизация по кросс-энтропийным потерям не дает прямой оптимизации по точности, хотя часто улучшает ее. Подробнее о метриках производительностиYOLO ты можешь узнать здесь.
  • Оверфиттинг и недофиттинг: Контроль потерь как на тренировочном, так и на отдельном валидационном множестве является ключом к диагностике этих проблем. Переоценка происходит, когда потери при обучении продолжают уменьшаться, а потери при проверке начинают расти. О неполной подгонке свидетельствуют высокие значения потерь на обоих наборах. Стратегии решения этих проблем обсуждаются в таких руководствах, как Tips for Model Training и Model Evaluation Insights.

Заключение

Функции потерь - краеугольный камень обучения эффективных моделей машинного обучения. Они дают необходимый сигнал алгоритмам оптимизации для настройки параметров модели, позволяя моделям изучать сложные паттерны из данных и решать сложные задачи в области компьютерного зрения (КВ) и не только. Понимание их назначения, различных доступных типов и их связи с метриками оценки крайне важно для разработки успешных приложений ИИ. Платформы вроде Ultralytics HUB упрощают процесс обучения сложных моделей, таких как Ultralytics YOLO11, справляясь со сложностями реализации и оптимизации функций потерь за кулисами, что делает продвинутый ИИ более доступным. Дальнейшее изучение можно провести в документации по Ultralytics .

Читать полностью