용어집

기능 엔지니어링

전문적인 피처 엔지니어링으로 머신러닝 정확도를 높이세요. 영향력 있는 피처를 생성, 변형 및 선택하는 기술을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

피처 엔지니어링은 머신러닝 모델에서 사용할 수 있는 원시 데이터를 선택, 조작 및 피처로 변환하는 프로세스입니다. 피처의 품질은 모델의 성능에 직접적인 영향을 미치기 때문에 머신 러닝 파이프라인에서 매우 중요한 단계입니다. 효과적인 피처 엔지니어링은 모델의 정확성, 효율성 및 일반화 기능을 크게 향상시킬 수 있습니다. 피처 엔지니어링에는 도메인 지식, 창의성, 머신 러닝 알고리즘에 대한 충분한 이해가 필요합니다.

기능 엔지니어링의 정의와 중요성

피처 엔지니어링은 단순히 데이터를 정리하는 것이 아니라 머신러닝 알고리즘이 효과적으로 작동할 수 있도록 올바른 입력 변수를 만드는 것입니다. 여기에는 기존 데이터에서 새로운 피처를 만들고, 가장 관련성이 높은 피처를 선택하고, 근본적인 문제를 더 잘 표현할 수 있도록 피처를 변형하는 작업이 포함됩니다. 목표는 모델에 유익하고 관련성이 있으며 쉽게 이해할 수 있는 피처를 제공하여 패턴을 학습하고 정확한 예측을 할 수 있도록 하는 것입니다. 고품질 피처는 모델을 단순화하고, 학습 속도를 높이며, 모델 해석 가능성을 향상시킬 수 있습니다. 본질적으로 피처 엔지니어링은 AI 모델이 데이터를 소화할 수 있게 만들어 원시 데이터와 기계가 사용할 수 있는 입력 사이의 간극을 메우는 기술입니다.

기능 엔지니어링 기술

수많은 기법이 피처 엔지니어링의 범주에 속하며, 각 기법은 원시 데이터에서 정보를 추출하거나 정제하도록 설계되었습니다. 일반적인 기법은 다음과 같습니다:

  • 피처 스케일링 및 정규화: 표준화 및 정규화와 같은 방법은 특징값의 범위를 조정합니다. 이는 딥러닝에 사용되는 경사 하강 기반 알고리즘과 같이 피처 스케일에 민감한 알고리즘에 매우 중요하며, 더 빠른 수렴을 보장하고 값이 큰 피처가 학습 과정을 지배하는 것을 방지합니다. 정규화 기법에 대해 자세히 알아보세요.
  • 특징 추출: 여기에는 원시 데이터를 기계 학습 모델에서 처리할 수 있는 수치적 특징으로 자동 변환하는 작업이 포함됩니다. 예를 들어 컴퓨터 비전에서 특징 추출은 이미지 픽셀을 모양, 텍스처 또는 가장자리의 의미 있는 표현으로 변환할 수 있습니다.
  • 특징 선택: 데이터 세트에서 가장 관련성이 높은 특징을 선택하면 차원을 줄이고 모델을 단순화하며 일반화를 개선할 수 있습니다. 단변량 특징 선택 또는 재귀적 특징 제거와 같은 기술은 가장 영향력 있는 변수를 식별하고 유지하면서 관련성이 없거나 중복된 변수는 버리는 데 도움이 됩니다. 고차원 데이터 관리를 위한 차원 축소 기법을 살펴보세요.
  • 누락된 데이터 처리: 데이터 무결성과 모델 견고성을 유지하려면 대입(평균이나 중앙값 같은 통계적 측정값으로 누락된 값을 채우는 것) 또는 누락에 대한 이진 지표 생성 등 누락된 값을 처리하는 전략이 매우 중요합니다. 데이터 사전 처리에는 종종 누락된 데이터를 처리하는 단계가 포함됩니다.
  • 범주형 변수 인코딩하기: 머신 러닝 모델은 일반적으로 숫자 입력을 필요로 합니다. 범주형 변수(예: 색상, 카테고리)는 원핫 인코딩 또는 레이블 인코딩과 같은 기술을 사용하여 숫자 표현으로 변환해야 합니다.

피처 엔지니어링의 실제 적용 사례

피처 엔지니어링은 다양한 영역에 적용되어 AI 및 ML 시스템의 성능을 향상시킵니다. 다음은 몇 가지 예시입니다:

  1. 의료 이미지 분석: 의료 이미지 분석에서 특징 엔지니어링은 진단 정확도를 높이는 데 중요한 역할을 합니다. 예를 들어, 뇌종양 탐지에서는 MRI 스캔에서 특징을 엔지니어링하여 크기, 모양, 질감 등의 종양 특성을 강조할 수 있습니다. 이러한 엔지니어링된 특징을 물체 감지를 위한 Ultralytics YOLO 같은 모델과 함께 사용하면 종양 위치 파악 및 분류의 정밀도를 크게 향상시킬 수 있습니다. 의료 분야에서 AI의 관련 애플리케이션을 살펴볼 수 있습니다.
  2. 감정 분석: 텍스트의 감정 어조를 파악하는 데 사용되는 감성 분석에서는 텍스트 데이터를 처리하는 데 있어 피처 엔지니어링이 매우 중요합니다. 여기에는 단어 임베딩, n-그램(단어의 시퀀스), TF-IDF(용어 빈도-역 문서 빈도) 점수 등의 텍스트에서 특징을 추출하는 기술이 포함됩니다. 이렇게 엔지니어링된 텍스트 특징을 모델에 입력하면 리뷰, 기사 또는 소셜 미디어 게시물에 표현된 감정을 정확하게 분류할 수 있습니다.

기능 엔지니어링 및 Ultralytics

Ultralytics YOLO 은 객체 감지 및 이미지 분할과 같은 작업에 탁월하지만, 특징 엔지니어링은 완전한 AI 솔루션 구축이라는 보다 광범위한 맥락에서 여전히 관련성이 있습니다. 예를 들어, 보안 경보 시스템과 같은 맞춤형 애플리케이션을 위해 Ultralytics YOLO 을 배포할 때 피처 엔지니어링에는 이미지 품질을 향상시키기 위해 비디오 데이터를 전처리하거나 위협 탐지의 정확도를 높이기 위해 관련 맥락적 피처를 추출하는 작업이 포함될 수 있습니다. 또한 Ultralytics 허브와 같은 플랫폼은 데이터 세트 및 모델 관리 프로세스를 간소화하여 사용자가 피처 엔지니어링에 더 집중하여 AI 애플리케이션을 최적화할 수 있도록 지원합니다.

피처 엔지니어링은 반복적인 과정으로, 최적의 결과를 얻기 위해 실험과 개선이 필요한 경우가 많습니다. 이는 AI 시스템의 효과와 효율성에 직접적인 영향을 미치기 때문에 머신러닝을 다루는 모든 사람에게 매우 중요한 기술입니다.

관련 개념에 대한 자세한 내용은 종합적인 용어집(Ultralytics )을 참조하세요.

모두 보기