Глоссарий

Предварительная обработка данных

Освой предварительную обработку данных для машинного обучения. Изучи такие техники, как очистка, масштабирование и кодирование, чтобы повысить точность и производительность модели.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Препроцессинг данных - важнейший этап в конвейере машинного обучения, который включает в себя очистку, преобразование и организацию исходных данных, чтобы сделать их пригодными для обучения модели. Качество исходных данных существенно влияет на производительность и точность моделей машинного обучения. Поэтому эффективная предварительная обработка данных очень важна для создания надежных и прочных систем ИИ. Этот процесс обычно включает в себя обработку пропущенных значений, работу с выбросами, нормализацию или стандартизацию признаков, а также преобразование категориальных переменных в числовые представления.

Важность предварительной обработки данных

Предварительная обработка данных жизненно важна по нескольким причинам. Во-первых, она обеспечивает высокое качество данных, поступающих в модель, что может привести к более точным и надежным предсказаниям. Сырые данные часто содержат ошибки, несоответствия и шум, которые могут негативно повлиять на работу модели. Очистив и преобразовав данные, можно сгладить эти проблемы, что приведет к повышению точности модели. Во-вторых, предварительная обработка может помочь уменьшить сложность данных, облегчая моделям изучение закономерностей и взаимосвязей. Это может привести к ускорению времени обучения и повышению эффективности работы модели. Наконец, такие этапы предварительной обработки, как нормализация и стандартизация, могут помочь улучшить стабильность и сходимость алгоритмов машинного обучения, особенно тех, которые чувствительны к масштабам признаков, например градиентный спуск.

Общие методы предварительной обработки данных

В предварительной обработке данных обычно используется несколько техник:

  • Очистка данных: Это включает в себя обработку пропущенных значений, исправление ошибок и устранение несоответствий в данных. Недостающие значения можно вменять с помощью различных методов, таких как вменение среднего, медианы, режима или более продвинутых техник, например вменение k-nearest neighbors.
  • Преобразование данных: Сюда входят такие техники, как нормализация и стандартизация, которые масштабируют числовые признаки к стандартному диапазону, не позволяя признакам с большими значениями доминировать в процессе обучения.
  • Сокращение данных: Это подразумевает уменьшение размера набора данных с сохранением важной информации. Такие техники, как анализ главных компонент (PCA), можно использовать для уменьшения размерности данных, выявляя наиболее важные признаки.
  • Масштабирование признаков: Масштабирование признаков - это метод, используемый для нормализации диапазона независимых переменных или признаков данных. Обычно используются такие техники, как масштабирование Min-Max или нормализация Z-score.
  • Кодирование признаков: Категориальные переменные часто кодируют в числовые представления, чтобы использовать их в моделях машинного обучения. К распространенным методам кодирования относятся одноходовое кодирование и кодирование меток.

Предварительная обработка данных в реальных приложениях

Предварительная обработка данных играет важнейшую роль в различных реальных приложениях ИИ и машинного обучения. Вот два конкретных примера:

  1. Автономные транспортные средства: В автономных транспортных средствах данные с различных датчиков, таких как камеры, лидары и радары, должны быть предварительно обработаны, прежде чем они будут использованы для решения таких задач, как обнаружение объектов и планирование траектории. Этапы предварительной обработки могут включать в себя подавление шума, ректификацию изображения и слияние датчиков для создания единого и точного представления окружающей среды транспортного средства. Модели компьютерного зрения, такие как Ultralytics YOLO , полагаются на высококачественные входные данные для точного обнаружения и классификации объектов в реальном времени.
  2. Анализ медицинских изображений: В анализе медицинских изображений предварительная обработка необходима для повышения точности диагностических инструментов. Например, изображения МРТ или КТ могут проходить такие этапы предварительной обработки, как подавление шума, усиление контраста и нормализация, чтобы выделить важные особенности, например опухоли или повреждения. Эти предварительно обработанные изображения затем используются для обучения моделей глубокого обучения для таких задач, как сегментация и классификация изображений, что помогает в ранней и точной диагностике заболеваний.

Предварительная обработка данных по сравнению с другими смежными терминами

Хотя предварительная обработка данных - это широкий термин, он часто ассоциируется с другими смежными понятиями в конвейере подготовки данных:

  • Очистка данных: Очистка данных - это подмножество предварительной обработки данных, которая направлена на выявление и исправление ошибок, несоответствий и пропущенных значений в данных. Хотя очистка данных является важной частью предварительной обработки, она более узко ориентирована на проблемы качества данных. Узнай больше о лучших практиках сбора данных и аннотирования.
  • Дополнение данных: Аугментация данных - это техника, используемая для искусственного увеличения размера обучающего набора данных путем создания модифицированных версий существующих точек данных. Это особенно полезно в приложениях глубокого обучения, где требуются большие объемы данных. Хотя увеличение данных можно считать одной из форм предварительной обработки данных, оно направлено именно на улучшение обобщения модели за счет внесения большей вариативности в обучающие данные. Узнай больше о предварительной обработке аннотированных данных.
  • Feature Engineering: Инженерия признаков включает в себя создание новых признаков или модификацию существующих для улучшения производительности модели. Это может включать в себя такие техники, как создание условий взаимодействия, полиномиальных признаков или признаков, специфичных для конкретной области. Хотя и инженерия признаков, и предварительная обработка данных направлены на улучшение качества данных, инженерия признаков больше сосредоточена на создании новой информации, в то время как предварительная обработка данных направлена на очистку и преобразование существующих данных. Изучи советы по обучению моделей и их оценке на сайте Ultralytics docs.

Понимая и применяя эти методы предварительной обработки, специалисты могут гарантировать, что их модели машинного обучения будут обучены на высококачественных данных, что приведет к повышению производительности, точности и надежности. Узнай больше о вариантах развертывания моделей и лучших практиках их применения.

Читать полностью