Глоссарий

Данные испытаний

Узнай о важности тестовых данных в ИИ, их роли в оценке производительности моделей, выявлении перебора и обеспечении надежности в реальном мире.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Тестовые данные - важнейший компонент в жизненном цикле разработки Machine Learning (ML). Под ними понимается независимый набор данных, отдельный от обучающего и валидационного наборов, используемый исключительно для окончательной оценки производительности модели после завершения этапов обучения и настройки. Этот набор данных содержит точки данных, с которыми модель никогда раньше не сталкивалась, что позволяет непредвзято оценить, насколько хорошо модель будет работать на новых, реальных данных. Основная цель использования тестовых данных - оценить обобщающую способность модели - ее способность точно работать на невидимых входных данных.

Важность тестовых данных

Истинная мера успеха ML-модели заключается в ее способности работать с данными, на которых она не была явно обучена. Тестовые данные служат финальной контрольной точкой, предлагая объективную оценку работы модели. Без специального набора тестовых данных высок риск чрезмерной подгонки, когда модель слишком хорошо изучает обучающие данные, включая шумы и специфические закономерности, но не может обобщить их на новые данные. Использование тестовых данных помогает убедиться в том, что заявленные показатели эффективности отражают ожидаемые реальные возможности модели, что повышает уверенность перед развертыванием модели. Этот заключительный этап оценки очень важен для достоверного сравнения различных моделей или подходов, например, для сравнения YOLOv8 и YOLOv9.

Основные характеристики

Чтобы быть эффективными, тестовые данные должны обладать определенными характеристиками:

  • Независимость: Она должна быть строго отделена от данных, используемых для обучения и валидации. Модель никогда не должна видеть тестовые данные во время любой части процесса обучения или настройки гиперпараметров.
  • Репрезентативность: Она должна точно отражать характеристики и распределение реальных данных, с которыми модель столкнется в процессе производства. Это включает в себя схожие типы исходных данных, вариации и потенциальные крайние случаи. Здесь крайне важны лучшие практики сбора данных и аннотирования.
  • Достаточный размер: Хотя тестовое множество часто меньше тренировочного, оно должно быть достаточно большим, чтобы обеспечить статистически значимые результаты оценки. Недостаточный размер может привести к недостоверным оценкам производительности, как подчеркивается в "Правилах ML" отGoogle.

Тестовые данные по сравнению с тренировочными и проверочными данными

Очень важно отличать тестовые данные от других разбиений данных, используемых в ML:

  • Обучающие данные: Это самая большая часть набора данных, которая используется непосредственно для обучения модели путем настройки ее внутренних параметров или весов.
  • Валидационные данные: Это отдельное подмножество используется в процессе обучения для настройки гиперпараметров модели (например, скорости обучения или выбора архитектуры сети) и принятия решений о самом процессе обучения (например, о досрочном прекращении). Хотя во время обновления параметров он не виден, он косвенно влияет на конечную модель через выбор гиперпараметров. Более подробную информацию можно найти в нашем руководстве по оценке и тонкой настройке моделей.
  • Тестовые данные: Этот набор данных используется только один раз после того, как модель полностью обучена и настроена, обеспечивая окончательную, непредвзятую оценку производительности. Он не должен влиять ни на какие решения по обучению или настройке. Стандартные эталонные наборы данных, такие как COCO, часто поставляются с заранее определенными тестовыми разбиениями для стандартной оценки.

Примеры из реальной жизни

  1. Автономное вождение: Сайт Ultralytics YOLO Модель, обученная на обнаружение объектов (распознавание автомобилей, пешеходов, светофоров), будет оцениваться на тестовом наборе видеозаписей с дорог, записанных в условиях (погода, время суток, местоположение), не включенных в обучающий или проверочный наборы. Это гарантирует надежность модели в различных реальных сценариях вождения, что крайне важно для ИИ в самоуправляемых автомобилях.
  2. Медицинская диагностика: Модель, разработанная для анализа медицинских изображений, например для обнаружения опухолей на рентгеновских снимках с помощью таких наборов данных, как Brain Tumor Detection Dataset, будет тестироваться на совершенно новом наборе изображений пациентов из других больниц или сканеров, чем те, которые использовались для обучения и проверки. Это подтверждает диагностическую точность перед потенциальным клиническим использованием, о чем мы говорили в статье "Роль ИИ в клинических исследованиях".

Оценка производительности на тестовых данных

Производительность на тестовом наборе обычно измеряется с помощью метрик, относящихся к задаче, таких как точность, прецизионность, отзыв, F1 score или средняя средняя точность (mAP) для обнаружения объектов. Эти метрики, рассчитанные на невидимых тестовых данных, дают наиболее реалистичную оценку производительности модели в производстве. Подробнее об этих метриках ты можешь узнать в нашем руководстве по метрикам производительностиYOLO . Платформы вроде Ultralytics HUB облегчают отслеживание этих метрик на этапе оценки. Лучшие практики тестирования моделей подчеркивают важность этого финального этапа оценки.

Читать полностью