용어집

선형 회귀

머신 러닝에서 선형 회귀의 힘을 알아보세요! 성공적인 예측 모델링을 위한 선형 회귀의 적용, 이점 및 주요 개념에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

선형 회귀는 예측 모델링에 사용되는 통계머신 러닝(ML) 의 기본 알고리즘입니다. 이 알고리즘은 종속 변수(예측 대상)와 하나 이상의 독립 변수(예측자 또는 특징) 사이의 선형 관계를 설정하는 것을 목표로 합니다. 가장 간단하고 해석하기 쉬운 회귀 기법 중 하나로서, 더 복잡한 모델을 이해하기 위한 기초를 형성하며 많은 분석 작업에서 중요한 기준이 됩니다. 레이블이 지정된 훈련 데이터로부터 학습하기 때문에 지도 학습의 범주에 속합니다.

선형 회귀의 작동 방식

핵심 아이디어는 데이터 포인트를 통해 예측값과 실제값의 차이를 최소화하는 가장 잘 맞는 직선을 찾는 것입니다. 이 선은 변수 간의 선형 관계를 나타냅니다. 독립 변수가 하나만 있는 경우 이를 단순 선형 회귀라고 하며, 독립 변수가 여러 개 있는 경우 다중 선형 회귀라고 합니다. 이 과정에는 각 독립 변수에 대한 계수(또는 모델 가중치)를 추정하여 예측 변수의 단위 변화에 대한 종속 변수의 변화를 정량화하는 작업이 포함됩니다. 경사 하강과 같은 기법은 손실 함수(일반적으로 제곱 오차의 합)를 최소화하여 이러한 최적의 계수를 찾는 데 자주 사용됩니다. 정규화특징 엔지니어링을 포함한 신중한 데이터 전처리를 통해 모델 성능을 크게 향상시킬 수 있습니다. 효과적인 데이터 수집과 주석은 신뢰할 수 있는 모델을 구축하기 위한 전제 조건입니다.

실제 애플리케이션

선형 회귀는 단순성과 해석 가능성으로 인해 다양한 분야에 널리 적용됩니다:

  • 재무 예측: 과거 데이터와 경제 지표를 기반으로 주가, 자산 가치 또는 경제 성장을 예측하는 것입니다. 예를 들어, 마케팅 지출과 시장 규모를 기반으로 기업의 수익을 예측하는 것은 금융 분야에서 AI의 일반적인 사용 사례입니다.
  • 판매 예측: 광고 예산, 판촉 활동, 경쟁사 가격 등의 요소를 기반으로 미래 매출을 예측하여 재고 관리를 돕고 AI를 통해 소매업의 효율성을 달성합니다.
  • 부동산 가치 평가: 평방 피트, 침실 수, 위치 및 연식과 같은 기능을 기반으로 주택 가격을 예측합니다. 이는 ML 입문 과정에서 자주 사용되는 대표적인 예시입니다.
  • 위험 평가: 은행 부문의 대출 연체율과 대출자 특성 간의 관계를 모델링하여 신용 리스크를 평가합니다.
  • 의료 분석: 라이프스타일 선택(예: 흡연, 식단)과 건강 결과(예: 혈압)와 같은 요인 간의 관계를 연구하여 의료 분야의 AI 인사이트에 기여합니다.

선형 회귀와 다른 모델 비교

선형 회귀를 다른 ML 모델과 구별하는 것이 중요합니다:

  • 로지스틱 회귀: 이름은 비슷하게 들리지만 로지스틱 회귀는 선형 회귀처럼 연속 값을 예측하는 것이 아니라 분류 작업(예: 스팸/스팸 아닌 카테고리 예측)에 사용됩니다. 이진 결과의 확률을 모델링합니다.
  • 의사 결정 트리랜덤 포레스트: 이러한 모델은 데이터의 복잡한 비선형 관계를 포착할 수 있으며 예측 작업에 더 강력하지만 선형 회귀에 비해 해석이 어려울 수 있습니다. 랜덤 포레스트는 여러 의사 결정 트리를 기반으로 하는 앙상블 방식입니다.
  • 신경망(NN)딥 러닝(DL): 컴퓨터 비전(CV)에서 광범위하게 사용되는 컨볼루션 신경망(CNN) 과 같은 아키텍처를 포함한 이러한 모델은 매우 복잡한 비선형 패턴을 모델링할 수 있습니다. 이러한 모델은 강력하지만 상당한 데이터와 계산 리소스가 필요하며, 종종 Ultralytics HUB와 같은 플랫폼을 사용하여 관리됩니다. 다음과 같은 모델 Ultralytics YOLO11 과 같은 모델은 선형 회귀보다 훨씬 더 복잡한 고급 DL 모델의 예입니다. 고급 아키텍처에 대한 인사이트를 얻기 위해 다양한 YOLO 모델 간의 비교를 살펴볼 수 있습니다.

관련성 및 제한 사항

선형 회귀는 변수 간의 선형 관계, 오류의 독립성, 일정한 오류 분산(동적 공분산)을 가정합니다. 이러한 가정을 위반하면 모델 성능이 저하될 수 있습니다. 또한 이상값에 민감하여 적합 선에 불균형적인 영향을 미칠 수 있습니다. 이러한 한계에도 불구하고, 단순성, 속도, 높은 해석 가능성으로 인해 많은 회귀 문제에 대한 훌륭한 출발점이자 기본적인 데이터 관계를 이해하는 데 유용한 도구입니다. 종종 더 복잡한 모델을 평가하는 벤치마크 역할을 하기도 합니다. Scikit-learn과 같은 라이브러리는 실제 사용을 위한 강력한 구현을 제공하며, 고급 기술을 탐색하거나 모델 훈련배포를 위한 플랫폼을 활용하기 전에 그 원리를 이해하는 것이 중요합니다. 관련 맥락에서 정확도 또는 F1 점수와 같은 지표와 함께 평균 제곱 오차(MSE) 또는 R-제곱과 같은 지표를 사용하여 모델을 평가하면 검증 데이터의 유효성을 평가하는 데 도움이 됩니다. 모델 배포 모범 사례를 따르면 신뢰할 수 있는 실제 적용이 보장되며, 모델 학습을 위한 팁을 적용하면 결과를 향상시킬 수 있습니다.

모두 보기