Глоссарий

Кросс-валидация

Открой для себя силу кросс-валидации в машинном обучении! Узнай, как она предотвращает перебор, обеспечивает точность и помогает в выборе модели.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Перекрестная валидация - это статистическая техника, используемая в машинном обучении и искусственном интеллекте для оценки эффективности модели путем ее тестирования на подмножествах данных, которые не использовались во время обучения. Это гарантирует, что модель хорошо обобщается на новые, невидимые данные, и помогает предотвратить перебор. Разделяя набор данных на несколько частей или "складок", кросс-валидация систематически тестирует модель на разных частях данных, обеспечивая надежную оценку ее эффективности.

Как работает кросс-валидация

Основная идея кросс-валидации заключается в том, чтобы разделить набор данных на обучающее и тестирующее подмножества несколько раз. Модель обучается на одном подмножестве и тестируется на другом, вращаясь по набору данных так, чтобы каждая точка данных использовалась как для обучения, так и для проверки хотя бы один раз. Наиболее часто используемая техника - это K-Fold Cross-Validationгде набор данных делится на K Фолды одинакового размера:

  • Модель обучается на K-1 Сложи и проверь на оставшейся складке.
  • Этот процесс повторяется K раз, каждый раз используя в качестве тестового набора разные складки.
  • Результаты усредняются по всем итерациям, чтобы получить итоговую метрику производительности.

Другие вариации включают Leave-One-Out Cross-Validation (LOOCV), где каждая точка данных используется один раз в качестве тестового набора, и Stratified K-Fold Cross-Validation, которая сохраняет распределение классов по складкам, что делает ее идеальной для дисбалансных наборов данных.

Преимущества кросс-валидации

Кросс-валидация дает несколько преимуществ при оценке моделей:

  • Лучшая обобщенность: Проводя тестирование на невидимых данных, кросс-валидация гарантирует, что модель не переборщила с тренировочным набором данных.
  • Надежные показатели: Усредненные результаты нескольких сложений дают более точную и стабильную оценку эффективности модели.
  • Выбор модели: Кросс-валидация помогает сравнить различные модели или настройки гиперпараметров, чтобы выбрать наиболее эффективную.

Узнай больше о предотвращении оверфиттинга и обобщения в машинном обучении на странице глоссария "Оверфиттинг".

Приложения в искусственном интеллекте и ML

Перекрестная валидация широко используется в различных приложениях ИИ и ML для обеспечения надежности и достоверности моделей:

1. Настройка гиперпараметров

Кросс-валидация играет важную роль в оптимизации гиперпараметров с помощью таких техник, как поиск по сетке или случайный поиск. Оценивая несколько комбинаций параметров на разных складках, специалисты-практики могут определить наилучшую конфигурацию. Узнай больше о настройке гиперпараметров для улучшения производительности модели.

2. Сравнение моделей

При выборе между различными алгоритмами, такими как Support Vector Machines (SVM) или Random Forests, кросс-валидация обеспечивает справедливое сравнение, оценивая каждую модель в одинаковых условиях. Узнай больше о Random Forest и Support Vector Machines (SVM).

3. Приложения для реального мира

  • Здравоохранение: В анализе медицинских изображений перекрестная валидация гарантирует, что диагностические модели, например, определяющие опухоли мозга, хорошо обобщаются на различных наборах данных пациентов. Изучи влияние ИИ в здравоохранении, прочитав статью "ИИ в здравоохранении".
  • Розничная торговля: В прогнозировании спроса в розничной торговле кросс-валидация помогает моделям точнее предсказывать будущие продажи, используя для проверки подмножества исторических данных. Узнай, как ИИ преобразует розничную торговлю в статье AI for Smarter Retail Inventory Management.

Кросс-валидация по сравнению с родственными концепциями

Кросс-валидация против валидационных данных

Если кросс-валидация предполагает динамическое разбиение набора данных, то под валидационными данными понимается фиксированное подмножество, предназначенное для оценки производительности во время обучения. Узнай больше на странице глоссария "Валидационные данные".

Кросс-валидация против тестовых данных

Тестовые данные используются для окончательной оценки после обучения и валидации модели, тогда как при кросс-валидации обучающие данные делятся на несколько подмножеств для промежуточной оценки. Подробнее об этом читай на странице глоссария "Тестовые данные".

Кросс-валидация против предотвращения оверфиттинга

Кросс-валидация - это ключевая стратегия для выявления и смягчения перебора. Хотя такие техники, как выпадающие слои или регуляризация, тоже помогают, кросс-валидация дает эмпирическое подтверждение эффективности модели. Подробнее читай на странице глоссария "Регуляризация".

Заключение

Кросс-валидация - незаменимый инструмент в машинном обучении, обеспечивающий точность и обобщаемость моделей. Проводя строгое тестирование на невидимых данных и усредняя результаты, она обеспечивает надежные показатели производительности, которые направляют выбор и настройку модели. Для практической реализации кросс-валидации при обнаружении объектов изучи K-Fold Cross-Validation for Object Detection using Ultralytics YOLO на Ultralytics HUB.

Чтобы начать работу над ИИ-проектами или обучением моделей, посети Ultralytics HUB, где собраны интуитивно понятные инструменты и ресурсы.

Читать полностью