Глоссарий

Предварительная обработка данных

Освой предварительную обработку данных для машинного обучения. Изучи такие техники, как очистка, масштабирование и кодирование, чтобы повысить точность и производительность модели.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Предварительная обработка данных включает в себя основные методы, используемые для очистки, преобразования и организации сырых данных в структурированный и подходящий формат, прежде чем они будут использованы для обучения моделей машинного обучения (ML). Сырые данные, собранные из различных источников, часто бывают беспорядочными, содержат пропущенные значения, несоответствия, шум или ошибки. Предварительная обработка решает эти проблемы, повышая качество данных, что напрямую ведет к улучшению производительности, точности и надежности ML-моделей. Этот шаг является основополагающим в любом проекте, связанном с данными, включая проекты в области искусственного интеллекта (ИИ) и компьютерного зрения (КВ).

Почему важна предварительная обработка данных?

Принцип "мусор внутрь, мусор наружу" в полной мере относится и к машинному обучению. Модели изучают закономерности непосредственно из данных, на которых они обучаются. Если входные данные несовершенны, модель будет изучать неправильные или неактуальные паттерны, что приведет к плохим прогнозам и ненадежным результатам. Качественные, хорошо подготовленные данные имеют решающее значение для построения эффективных моделей, таких как Ultralytics YOLO для таких сложных задач, как обнаружение объектов. Правильная предварительная обработка данных вносит значительный вклад, поскольку:

  • Повышение точности модели: Чистые и хорошо структурированные данные помогают модели эффективнее изучать значимые закономерности.
  • Повышение эффективности: Предварительная обработка может сократить вычислительные ресурсы, необходимые для обучения, за счет упрощения данных или снижения их размерности.
  • Уменьшение оверфиттинга: Устранение шумов и выбросов может предотвратить обучение модели этим несущественным деталям, улучшая ее способность обобщать новые данные и избегать оверфиттинга.
  • Обеспечение надежности: Последовательное форматирование данных приводит к более стабильному и надежному поведению модели как во время обучения, так и во время вывода.

Общие методы предварительной обработки данных

В процессе предварительной обработки данных применяются различные техники, часто в комбинации, в зависимости от типа данных и конкретной задачи ML. К основным методам относятся:

  • Очистка данных: Она включает в себя выявление и исправление ошибок, обработку недостающих значений (например, путем вменения или удаления), а также работу с выбросами или шумными точками данных. В Python для этого обычно используются такие инструменты, как Pandas.
  • Трансформация данных: На этом этапе данные модифицируются в более подходящий формат.
    • Масштабирование: Такие техники, как нормализация (приведение данных к диапазону, обычно от 0 до 1) или стандартизация (приведение данных к нулевому среднему и единичной дисперсии), помогают алгоритмам, которые чувствительны к масштабу признаков, например моделям на основе градиентного спуска. Узнай больше о методах масштабирования в документации по препроцессингу Scikit-learn.
    • Кодирование: Преобразование категориальных признаков (например, текстовых меток) в числовые представления (например, одномоментное кодирование), которые могут обрабатывать модели.
  • Feature Engineering: Создание новых, потенциально более информативных признаков из существующих для улучшения работы модели. Это требует знаний о предметной области и творческого подхода.
  • Извлечение признаков: Автоматическое извлечение меньшего набора признаков из исходных данных с сохранением важной информации. Для этого часто используются такие техники, как анализ главных компонент (PCA).
  • Снижение размерности: Уменьшение количества входных признаков для упрощения модели, сокращения времени обучения и снижения риска перебора, что особенно важно для Big Data.
  • Предварительная обработка изображений: Для задач компьютерного зрения общие шаги включают изменение размера изображений до единой размерности, преобразование цветовых пространств (например, BGR в RGB), регулировку яркости или контрастности, а также применение фильтров для подавления шума с помощью библиотек вроде OpenCV. Ultralytics предлагает руководство по предварительной обработке аннотированных данных для моделей YOLO .

Применение в реальном мире

Предварительная обработка данных имеет решающее значение в бесчисленных приложениях AI/ML:

  1. Анализ медицинских изображений: Прежде чем модель искусственного интеллекта сможет проанализировать снимки МРТ или КТ на предмет аномалий, таких как опухоли(пример набора данных Brain Tumor), изображения должны пройти предварительную обработку. Она часто включает в себя подавление шума с помощью фильтров, нормализацию интенсивности для стандартизации уровней яркости на разных сканах и аппаратах, а также регистрацию изображений для выравнивания нескольких сканов. Эти шаги гарантируют, что модель получит согласованные данные, что улучшит ее способность точно обнаруживать тонкие аномалии. Это крайне важно для применения ИИ в здравоохранении.
  2. Автономные транспортные средства: Самоуправляемые автомобили полагаются на такие датчики, как камеры и LiDAR. Необработанные данные с этих датчиков нуждаются в тщательной предварительной обработке. Изображения с камер могут потребовать изменения размера, цветокоррекции и корректировки яркости для работы в разных условиях освещения. Данные облака точек LiDAR могут нуждаться в фильтрации для удаления шума или точек грунта. Такая предварительная обработка гарантирует, что системы обнаружения и отслеживания объектов получат чистые, стандартизированные данные для надежной идентификации пешеходов, транспортных средств и препятствий, что крайне важно для обеспечения безопасности в приложениях ИИ в автомобилестроении.

Предварительная обработка данных по сравнению со смежными понятиями

Полезно отличать предварительную обработку данных от тесно связанных с ней терминов:

Управление наборами данных и применение этапов предварительной обработки можно упростить с помощью таких платформ, как Ultralytics HUB, которая предлагает инструменты для управления наборами данных и обучения моделей.

Читать полностью