비지도 학습은 미리 정의된 레이블이나 카테고리가 없는 데이터에 대해 알고리즘을 학습시키는 머신 러닝(ML) 의 한 범주입니다. 지도 학습과 달리 입력된 특징을 기반으로 알려진 결과를 예측하는 것이 목표가 아닙니다. 대신 시스템이 스스로 데이터 내의 기본 구조, 패턴 및 관계를 학습하려고 합니다. 이는 마치 컴퓨터에게 정렬되지 않은 대량의 항목 모음을 주고 무엇을 찾아야 하는지 알려주지 않고 자연스럽게 그룹화하거나 흥미로운 특징을 찾도록 요청하는 것과 같습니다. 이 접근 방식은 복잡한 데이터 세트를 탐색하고 미처 발견하지 못한 인사이트를 발견하는 데 매우 중요하며, 최신 인공 지능(AI)의 핵심적인 부분을 형성합니다.
비지도 학습의 작동 방식
비지도 학습에서는 알고리즘이 입력 데이터 포인트를 검사하고 이들 간의 유사성, 차이점 또는 상관관계를 식별하려고 시도합니다. 학습 단계에서 제공되는 "정답"이나 목표 출력은 없습니다. 알고리즘은 데이터에 존재하는 고유한 구조를 추론해야 합니다. 여기에는 데이터 포인트를 그룹으로 구성하거나(클러스터링), 데이터의 복잡성을 줄이거나(차원 축소), 비정상적인 데이터 포인트를 식별하는(이상 탐지) 작업이 포함됩니다. 비지도 방법의 성공 여부는 알고리즘이 외부 지침 없이 데이터 집합의 내재적 속성을 얼마나 잘 포착할 수 있는지에 달려 있는 경우가 많습니다.
주요 기술 및 개념
비지도 학습에는 여러 가지 기법이 있습니다:
- 클러스터링: 클러스터링은 특정 특성에 따라 유사한 데이터 요소를 함께 그룹화하는 작업입니다. 클러스터 내의 항목은 매우 유사하고 다른 클러스터의 항목은 서로 다른 클러스터를 만드는 것이 목표입니다. 일반적인 알고리즘으로는 K-평균 클러스터링과 DBSCAN이 있습니다. 이는 고객 세분화나 대규모 문서 컬렉션 구성과 같은 작업에 유용합니다.
- 차원 축소: 이러한 기술은 필수 정보를 보존하면서 데이터 세트의 입력 변수(특징) 수를 줄이는 것을 목표로 합니다. 이렇게 하면 모델이 단순화되고 계산 비용이 절감되며 데이터 시각화에 도움이 될 수 있습니다. 널리 사용되는 방법으로는 주성분 분석(PCA) 과 t 분산 확률적 이웃 임베딩(t-SNE)이 있습니다.
- 연관 규칙 학습: 대규모 데이터 세트에서 변수 간의 흥미로운 관계나 연관 규칙을 발견합니다. 대표적인 예로 자주 함께 구매하는 품목을 식별하는 마켓 바스켓 분석이 있습니다. 여기에는 Apriori와 같은 알고리즘이 일반적으로 사용됩니다. 연관 규칙 마이닝에 대해 자세히 알아보세요.
- 이상 징후 탐지: 이 기술은 대부분의 데이터에서 크게 벗어난 데이터 포인트를 식별하는 데 중점을 둡니다. 사기 탐지, 네트워크 보안, 제조 결함 식별에 널리 사용됩니다.
- 생성 모델: 생성적 적대적 네트워크(GAN) 또는 자동 인코더와 같은 일부 비지도 모델은 기본 데이터 분포를 학습하여 원본 데이터와 유사한 새로운 데이터 샘플을 생성할 수 있습니다.
실제 애플리케이션
비지도 학습은 여러 분야에 걸쳐 다양한 애플리케이션을 지원합니다:
- 고객 세분화: 기업은 클러스터링을 사용하여 유사한 행동이나 인구 통계를 가진 고객을 그룹화하여 타겟 마케팅 캠페인과 개인화된 경험을 제공할 수 있습니다. 고객 세분화의 AI에 대해 읽어보세요.
- 추천 시스템: 비지도 학습은 사용자 행동 패턴(예: 시청 또는 구매한 제품)을 파악하여 관련 항목이나 콘텐츠를 추천하는 데 도움이 되며, 이는 Netflix나 Amazon과 같은 플랫폼에서 흔히 볼 수 있습니다.
- 생물정보학: 클러스터링 알고리즘은 유사한 발현 패턴을 가진 유전자를 그룹화하여 연구자들이 유전자 기능과 질병을 이해하는 데 도움을 줍니다. 유전자 발현 분석에서 클러스터링에 대해 알아보세요.
- 데이터 전처리: PCA와 같은 기술은 지도 모델에 데이터를 공급하기 전에 특징 추출 또는 노이즈 감소에 사용되어 잠재적으로 성능을 향상시킵니다. Scikit-learn의 비지도 학습 도구를 참조하세요.
다른 학습 패러다임과의 비교
비지도 학습은 다른 ML 접근 방식과 크게 다릅니다:
- 지도 학습: 분류 또는 회귀와 같은 작업을 위해 레이블이 지정된 데이터(입력-출력 쌍)를 사용하여 모델을 훈련합니다. 목표는 입력을 알려진 출력에 매핑하는 것입니다. 지도 학습과 비지도 학습을 비교해 보세요.
- 강화 학습: 에이전트가 누적 보상을 최대화하기 위해 환경에서 작업을 수행하여 의사 결정을 내리는 방법을 학습하는 것을 포함합니다. 피드백 신호(보상 또는 페널티)의 안내에 따라 시행착오를 통해 학습합니다. 강화 학습에 대한 개요를 참조하세요.
- 준지도 학습: 소량의 레이블이 지정된 데이터와 대량의 레이블이 지정되지 않은 데이터를 조합하여 지도 학습과 비지도 학습 사이의 간극을 메웁니다.
- 자기 지도 학습: 입력 데이터 자체에서 레이블이 자동으로 생성되는 비지도 학습의 하위 집합으로, NLP나 컴퓨터 비전(CV)과 같은 대규모 모델을 사전 학습하는 데 자주 사용됩니다.
비지도 학습은 데이터를 탐색하고, 숨겨진 구조를 발견하고, 가치 있는 특징을 추출하기 위한 강력한 도구로, 복잡한 데이터 분석 파이프라인에서 중요한 첫 단계로 사용되거나 다른 ML 기술을 보완하는 역할을 하는 경우가 많습니다. Ultralytics HUB와 같은 플랫폼은 데이터 준비 또는 분석을 위해 잠재적으로 비지도 기법을 통합하는 다양한 ML 모델을 개발하고 관리할 수 있는 환경을 제공합니다. 다음과 같은 프레임워크 PyTorch 및 TensorFlow 와 같은 프레임워크는 비지도 알고리즘 구현을 지원하는 광범위한 라이브러리를 제공합니다.