Глоссарий

Предварительная обработка данных

Освой предварительную обработку данных для машинного обучения. Изучи такие техники, как очистка, масштабирование и кодирование, чтобы повысить точность и производительность модели.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Под предварительной обработкой данных понимаются важнейшие шаги, предпринимаемые для очистки, преобразования и организации сырых данных в подходящий формат перед тем, как отправить их в модель машинного обучения (ML). Сырые данные, собранные в реальном мире, часто бывают неполными, непоследовательными, содержат ошибки или шум. Предварительная обработка направлена на решение этих проблем, значительно улучшая качество данных и, соответственно, производительность, точность и надежность обученных на них ML-моделей. Это основополагающий этап любого проекта, связанного с данными, в том числе в области искусственного интеллекта (ИИ) и компьютерного зрения (КВ).

Почему важна предварительная обработка данных?

Модели машинного обучения изучают закономерности на основе данных. Если данные несовершенны, модель будет изучать неправильные закономерности, что приведет к плохим прогнозам и решениям. Качественные, хорошо подготовленные данные необходимы для построения надежных моделей, таких как Ultralytics YOLO для таких задач, как обнаружение объектов. Эффективная предварительная обработка данных помогает:

  • Повышай точность моделей: Чистые данные ведут к созданию более точных моделей.
  • Сократи время обучения: Удаление нерелевантных или избыточных данных может ускорить процесс обучения.
  • Избегай ошибок: Работа с несоответствиями не позволяет моделям усваивать ложные корреляции.
  • Улучшение обобщения: Правильная предварительная обработка данных помогает моделям лучше работать с невидимыми данными, уменьшая перебор с подгонкой.

Общие методы предварительной обработки данных

В процессе предварительной обработки данных обычно используется несколько методик:

  • Очистка данных: Она включает в себя выявление и обработку ошибок, несоответствий, пропущенных значений (импутация) и выбросов в наборе данных. Это обеспечивает точность и согласованность данных.
  • Трансформация данных: Сюда входят такие техники, как:
    • Нормализация / масштабирование: Корректировка диапазона или распределения числовых признаков (например, масштабирование значений пикселей на изображениях с 0-255 до 0-1). Это гарантирует, что признаки с большими значениями не будут оказывать непропорционально большое влияние на модель.
    • Кодирование категориальных переменных: Преобразование нечисловых данных (например, категорий или меток) в числовой формат, понятный моделям, с помощью таких методов, как одномоментное кодирование.
  • Инженерная характеристика: Создание новых, потенциально более информативных признаков из существующих для улучшения работы модели.
  • Извлечение признаков: Автоматическое извлечение новых, более низкоразмерных признаков из исходных данных, часто используется в обработке изображений.
  • Уменьшение размерности: Уменьшение количества входных признаков с сохранением важной информации, что может упростить модели и снизить вычислительные затраты. Распространены такие техники, как анализ главных компонент (PCA).
  • Предварительная обработка изображений: Специфически для компьютерного зрения это включает изменение размера изображений до однородного, преобразование цветовых пространств (например, RGB в Grayscale) и применение фильтров для подавления шума. Более подробную информацию ты можешь найти в руководствеUltralytics по предварительной обработке аннотированных данных.

Применение в реальном мире

  1. Компьютерное зрение для автономных транспортных средств: Изображения, полученные с камер, нуждаются в тщательной предварительной обработке. Она включает в себя изменение размера изображений, нормализацию интенсивности пикселей, коррекцию искажений объектива и применение таких методов увеличения данных, как случайные повороты или корректировка яркости, чтобы сделать модели обнаружения объектов устойчивыми к различным условиям. Платформы вроде Ultralytics HUB помогут управлять такими наборами данных.
  2. Предиктивное обслуживание на производстве: Данные датчиков (температура, вибрация, давление), поступающие от оборудования, часто зашумлены и могут содержать пропущенные показания. Предварительная обработка включает в себя очистку этих данных путем фильтрации шумов, вменения пропущенных значений с помощью статистических методов и нормализации показаний датчиков перед тем, как передать их в ML-модель для прогнозирования отказов оборудования, о чем рассказывается в статье "ИИ в производстве".

Предварительная обработка данных по сравнению со смежными понятиями

  • Очистка данных в сравнении с предварительной обработкой данных: Очистка данных - это подмножество предварительной обработки данных, которая направлена на устранение ошибок, пропущенных значений и несоответствий. Предварительная обработка данных шире и включает в себя очистку, преобразование и манипуляции с характеристиками.
  • Маркировка данных по сравнению с предварительной обработкой данных: Маркировка данных включает в себя добавление информативных меток или аннотаций (например, ограничительных рамок для обнаружения объектов) к необработанным данным, обеспечивая базовую истину для контролируемого обучения. Обычно это происходит перед предварительной обработкой данных, которая подготавливает помеченные данные к обучению модели. Подробнее об этом читай в руководстве по сбору данных и аннотированию.
  • Дополнение данных по сравнению с предварительной обработкой данных: Увеличение данных искусственно увеличивает размер и разнообразие обучающего набора данных, создавая модифицированные копии существующих данных (например, переворачивая изображения, добавляя шум). Хотя оно тесно связано и часто применяется наряду с этапами препроцессинга, его основная цель - улучшить обобщение модели, а не просто очистить или отформатировать данные. Изучи советы по обучению моделей, которые часто включают в себя аугментацию.

Инструменты и ресурсы

Различные библиотеки и инструменты облегчают предварительную обработку данных:

  • Pandas: Популярная библиотека Python для манипулирования данными и их анализа, отлично подходящая для очистки и преобразования табличных данных.
  • Scikit-learn: Предлагает широкий спектр инструментов предварительной обработки, включая скалеры, кодировщики и методы интерполяции в рамках своего preprocessing Модуль.
  • OpenCV: ключевая библиотека для задач компьютерного зрения, предоставляющая обширные функции для предварительной обработки изображений.
  • NumPy: Фундаментальный пакет для численных вычислений в Python, часто используется для манипуляций с массивами во время препроцессинга.
  • ДокументацияUltralytics : В ней содержатся руководства и примеры, связанные с обработкой данных для моделей YOLO .

В общем, предварительная обработка данных - это незаменимый этап в рабочем процессе машинного обучения, гарантирующий, что данные находятся в наилучшем состоянии для обучения модели, что приводит к созданию более надежных и точных систем ИИ.

Читать полностью