Глоссарий

Тренировочные данные

Узнай о важности обучающих данных в искусственном интеллекте. Узнай, как качественные наборы данных позволяют создавать точные и надежные модели машинного обучения для реальных задач.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

В области искусственного интеллекта (ИИ) и машинного обучения обучающие данные - это важный компонент, который используется для обучения моделей выполнению задач. Они состоят из набора данных, содержащего множество примеров, где каждый пример сопрягает входной сигнал с желаемым выходным сигналом или меткой. Обрабатывая эти данные, обычно с помощью алгоритмов Supervised Learning, модель учится выявлять закономерности, взаимосвязи и особенности, что позволяет ей делать предсказания или принимать решения на основе новых, невидимых данных.

Что такое тренировочные данные?

Обучающие данные выступают в качестве учебного материала для модели искусственного интеллекта. Это коллекция информации, специально отформатированная так, чтобы служить примером для процесса обучения. Например, в задачах компьютерного зрения, таких как обнаружение объектов, обучающие данные состоят из изображений или видеокадров(входные признаки) вместе с аннотациями, указывающими на местоположение и класс объектов в них (метки). Процесс создания этих меток известен как маркировка данных. Модель итеративно настраивает свои внутренние параметры на основе этих данных, чтобы минимизировать разницу между своими предсказаниями и предоставленными метками.

Важность тренировочных данных

Качество, количество и разнообразие обучающих данных напрямую определяют производительность модели и ее способность к обобщению на реальные сценарии(Generalization in ML). Качественные, репрезентативные данные помогают строить модели, которые являются надежными и достигают высокой точности. Недостаточное количество или необъективные данные могут привести к низкой производительности, чрезмерной подгонке (когда модель слишком хорошо усваивает обучающие данные, но терпит неудачу на новых данных) или несправедливым результатам из-за Dataset Bias. Поэтому тщательный сбор и подготовка обучающих данных - критически важные шаги в любом ИИ-проекте.

Примеры тренировочных данных в реальных приложениях

Обучающие данные питают бесчисленное множество приложений для ИИ. Вот два примера:

  1. Автономные транспортные средства: Модели типа Ultralytics YOLO используемые в искусственном интеллекте для самоуправляемых автомобилей, обучаются на огромных массивах данных, содержащих изображения и данные датчиков, полученные в различных условиях движения. Эти данные тщательно маркируются ограничительными рамками или масками сегментации для таких объектов, как транспортные средства, пешеходы, велосипедисты и светофоры, часто с использованием больших публичных наборов данных, таких как COCO Dataset.
  2. Обработка естественного языка: Для таких задач, как анализ настроений (Википедия), обучающие данные состоят из образцов текста (например, отзывов о товарах, постов в социальных сетях), помеченных такими настроениями, как "позитивное", "негативное" или "нейтральное". Модель учится ассоциировать языковые паттерны с этими метками настроения.

Качество и подготовка данных

Обеспечение высокого качества тренировочных данных включает в себя несколько ключевых процессов:

  • Сбор данных: Сбор релевантных данных, которые точно отражают проблемную область.
  • Очистка данных (Википедия): Выявление и исправление ошибок, несоответствий или недостающих значений в наборе данных.
  • Маркировка данных: Точное аннотирование данных с указанием правильных выходов или целей.
  • Дополнение данных: Искусственно расширяй набор данных, создавая модифицированные копии существующих данных (например, поворачивая изображения, меняя яркость), чтобы повысить робастность модели.

Тренировочные данные против валидационных и тестовых данных

Хотя эти наборы данных часто обсуждаются вместе, они служат разным целям:

  • Обучающие данные: Используются для обучения модели путем настройки ее параметров (весов).
  • Валидационные данные: Периодически используются во время обучения, чтобы оценить производительность модели на невидимых данных и настроить гиперпараметры(оптимизация гиперпараметров (Википедия)) без внесения смещения из тестового набора.
  • Тестовые данные: Используются только после завершения обучения модели, чтобы дать окончательную, непредвзятую оценку работы модели на совершенно новых данных.

Правильное разделение этих наборов данных имеет решающее значение для разработки надежных моделей и точной оценки их реальных возможностей. Платформы вроде Ultralytics HUB помогают эффективно управлять этими наборами данных на протяжении всего жизненного цикла разработки модели.

Читать полностью