Глоссарий

Инженерные особенности

Повышай точность машинного обучения с помощью экспертной разработки признаков. Изучи техники создания, преобразования и отбора эффективных признаков.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Инжиниринг признаков - это критически важный процесс выбора, преобразования и создания признаков (входных переменных) из необработанных данных для улучшения работы моделей машинного обучения (ML). Этот процесс считается скорее искусством, чем строгой наукой, и зачастую требует опыта, интуиции и экспериментов. Качество характеристик, вводимых в модель, напрямую влияет на ее способность изучать закономерности и делать точные прогнозы, поэтому разработка характеристик является краеугольным камнем успешных ML-проектов. Лучшие признаки могут привести к созданию более простых моделей, ускорить время обучения и повысить точность.

Что такое Feature Engineering?

По своей сути инженерия признаков переводит сырые, часто беспорядочные данные в структурированный формат, который алгоритмы могут понять и эффективно на нем обучаться. Это предполагает понимание данных, контекста задачи и выбранной ML-модели. Цель состоит в том, чтобы создать входные признаки, которые будут информативными, дискриминационными и независимыми, выделяя основные закономерности, имеющие отношение к задаче прогнозирования. Этот процесс преодолевает разрыв между сбором исходных данных и обучением модели, существенно влияя на результат работы конвейера машинного обучения.

Основные приемы

В разработке признаков используется несколько техник, которые часто применяются в комбинации:

  • Feature Creation: Генерирование новых признаков путем комбинирования или преобразования существующих. В качестве примера можно привести создание условий взаимодействия (например, перемножение двух переменных), полиномиальных признаков или выведение специфических для данной области метрик (например, соотношение долга к доходу в финансах).
  • Трансформация функций: Модифицируй существующие признаки, чтобы они соответствовали предположениям модели или улучшали производительность. К распространенным методам относятся масштабирование (например, нормализация), преобразование логарифмов для перекошенных данных или разбиение непрерывных переменных на категории. В компьютерном зрении (КВ) такие техники, как Data Augmentation, также можно рассматривать как форму преобразования признаков, применяемую к данным изображений.
  • Извлечение признаков: Создание меньшего набора новых, более информативных признаков из исходного набора, часто используется для снижения размерности. В эту категорию попадают такие техники, как анализ главных компонент (PCA). Хотя извлечение и связано с выбором признаков, оно создает новые признаки, в то время как выбор выбирает подмножество существующих признаков.
  • Отбор признаков: Определение и выбор наиболее релевантных признаков из исходного набора данных, отбрасывая нерелевантные или избыточные. Это помогает снизить сложность модели, предотвратить перебор и повысить эффективность вычислений. Методы варьируются от простого корреляционного анализа до более сложных методов обертывания и встраивания.

Примеры из реальной жизни

Инженерия признаков повсеместно распространена в различных приложениях ИИ:

  1. Предиктивное обслуживание: Чтобы предсказать выход оборудования из строя, необработанные данные датчиков (температура, вибрация, давление) могут быть шумными и высокоразмерными. Инженерия признаков может включать в себя создание таких признаков, как скользящие средние, стандартные отклонения во временных окнах, частотные компоненты данных о вибрации (с помощью преобразования Фурье) или время, прошедшее с момента последнего технического обслуживания. Эти разработанные признаки дают более четкие сигналы для моделей прогнозирования отказов. Это крайне важно для ИИ в производстве.
  2. Обработка естественного языка (NLP): Для таких задач, как анализ настроения, необработанный текст нуждается в преобразовании. Инженерия признаков может включать в себя создание векторов TF(Term Frequency-Inverse Document Frequency), подсчет количества слов, n-грамм (последовательностей слов), оценок читабельности или извлечение специфических лингвистических особенностей (например, использование положительных/отрицательных слов). Хотя современные модели трансформации учат представления автоматически, явная разработка признаков все еще может повысить производительность, особенно при работе с небольшими наборами данных или специализированными задачами.

Feature Engineering против смежных концепций

  • Предварительная обработка данных: Более широкая категория, включающая в себя разработку признаков, очистку данных, обработку пропущенных значений и начальное форматирование данных. Инженерия признаков направлена на оптимизацию входных переменных для модели. Смотри руководство Ultralytics по предварительной обработке аннотированных данных.
  • Извлечение признаков в глубоком обучении: Модели глубокого обучения (Deep Learning, DL), особенно CNN, автоматически учат иерархические признаки из необработанных данных (например, пикселей). Это снижает потребность в ручном поиске признаков, но не устраняет ее полностью, так как предварительная обработка исходных данных или поиск признаков для метаданных наряду с первичными данными все еще могут быть полезны.
  • Автоматизированное машинное обучение (AutoML): Такие инструменты, как Google Cloud AutoML, призваны автоматизировать различные этапы МЛ, включая разработку функций. Однако человеческая проницательность и знание предметной области часто приводят к более эффективному проектированию признаков, чем чисто автоматические подходы.

Проектирование характеристик и Ultralytics

Хотя продвинутые модели вроде Ultralytics YOLO отлично справляются с такими задачами, как обнаружение объектов и сегментация изображений, благодаря автоматическому обучению соответствующим визуальным признакам с помощью архитектуры глубоких нейронных сетей(позвоночник, шея, голова), принципы инженерии признаков остаются актуальными. Например, предварительная обработка входных изображений (например, выравнивание гистограммы при различном освещении, подавление шума) перед подачей их в модель YOLO - это одна из форм инженерии признаков, которая может повысить надежность. Более того, выходные данные YOLO (например, координаты ограничительной рамки, классы объектов, количество) можно преобразовать в характеристики для последующих задач или объединить с другими источниками данных для более сложного анализа, возможно, управляемого с помощью таких платформ, как Ultralytics HUB, которая помогает организовать наборы данных и модели. Изучи документациюUltralytics , чтобы узнать больше об использовании и настройке моделей.

Читать полностью