용어집

비지도 학습

비지도 학습을 탐구하여 라벨이 없는 데이터 속 숨겨진 패턴을 발견하세요. 클러스터링, 이상 탐지, 그리고 현대 AI 솔루션의 핵심 동력에 대해 알아보세요.

비지도 학습은 알고리즘이 인간의 개입 없이 태그가 없는 데이터에서 패턴을 학습하는 기계 학습의 한 유형입니다. 라벨이 지정된 입력-출력 쌍에 의존하여 모델을 훈련하는 지도 학습과 달리, 비지도 학습은 과거 라벨이 없는 데이터를 다룹니다. 이 시스템은 본질적으로 입력 데이터 내 숨겨진 구조, 패턴 또는 관계를 발견함으로써 스스로 학습하려 시도합니다. 이 접근 방식은 오늘날 생성되는 데이터의 대부분—이미지, 동영상, 텍스트, 센서 로그—이 구조화되지 않고 라벨이 부착되지 않았기 때문에 특히 가치가 있습니다.

비지도 학습의 작동 원리

비지도 학습 시나리오에서는 알고리즘이 데이터 내 흥미로운 구조를 스스로 발견하도록 방치됩니다. 목표는 종종 데이터의 근본적 분포를 모델링하거나 데이터 자체에 대해 더 많이 학습하는 것입니다. 훈련 과정에서 "정답"이 제공되지 않기 때문에, 모델은 전통적인 의미에서의 정확도로 평가될 수 없습니다. 대신 성능은 모델이 차원을 얼마나 잘 축소하거나 유사한 데이터 포인트를 얼마나 잘 클러스터링하는지로 측정되는 경우가 많습니다.

이 방법론은 인간이 새로운 개념을 습득하는 방식을 반영합니다. 예를 들어, 어린이는 개와 고양이의 이름을 처음부터 알지 못하더라도 서로 다른 형태와 행동을 관찰함으로써 이를 구분할 수 있습니다. 마찬가지로 비지도 학습 알고리즘은 내재된 유사성에 기반해 정보를 그룹화합니다. 이러한 능력은 시스템이 지속적인 인간 감독 없이도 새로운 환경에 적응할 수 있게 하므로, 인공 일반 지능(AGI) 개발의 기초가 됩니다.

비지도 학습의 핵심 기법

비지도 학습은 서로 다른 데이터 분석 문제에 적합한 여러 가지 기술들을 포괄합니다:

클러스터링: 이는 가장 일반적인 응용 분야로, 알고리즘이 서로 유사한 데이터 포인트를 그룹화합니다. 인기 있는 방법으로는 K-평균 클러스터링이 있으며, 이는 특징 유사성에 기반하여 데이터를 k개의 서로 다른 그룹으로 분할합니다. 이는 유사한 구매 행동을 보이는 고객 그룹을 식별하기 위한 시장 세분화에 널리 사용됩니다.
차원 축소: 고차원 데이터는 복잡하고 처리 비용이 높을 수 있습니다. 주성분 분석(PCA)과 같은 기법은 데이터 세트의 변수 수를 줄이면서 핵심 정보를 보존합니다. 이는 데이터 시각화를 단순화하고 다른 머신러닝 모델의 훈련 속도를 향상시킵니다.
이상 탐지: '정상' 데이터의 패턴을 학습함으로써 비지도 학습 모델은 표준에서 현저히 벗어난 이상치를 식별할 수 있습니다. 이는 금융 분야의 사기 탐지에 중요하며, 비정상적인 거래 패턴이 보안 경보를 유발합니다.
연관 규칙 학습: 이 기법은 대규모 데이터베이스 내 변수 간 흥미로운 관계를 발견합니다. 시장 바구니 분석에 널리 활용되어, 빵을 구매하는 고객이 버터도 함께 구매할 가능성이 높다는 점을 소매업체가 이해하도록 돕습니다.

비지도 학습 대 지도 학습

비지도 학습과 지도 학습을 구분하는 것이 중요합니다. 주요 차이점은 사용되는 데이터에 있습니다. 지도 학습은 라벨링된 데이터셋을 필요로 합니다. 즉, 각 훈련 예시에 정답 출력이 페어링되어 있습니다(예: "고양이"라고 라벨링된 고양이 이미지). 모델은 오류를 최소화하기 위해 입력과 출력을 매핑하는 법을 학습합니다.

반면 비지도 학습은 라벨이 없는 데이터를 사용합니다. 모델의 출력이 올바른지 알려주는 피드백 루프가 존재하지 않습니다. 중간 지점으로는 반지도 학습이 존재하는데, 이는 소량의 라벨링된 데이터와 대량의 라벨이 없는 데이터를 결합하여 학습 정확도를 향상시킵니다. 이는 데이터 라벨링이 비용이 많이 들거나 시간이 많이 소요될 때 자주 활용됩니다.

실제 애플리케이션

비지도 학습은 우리가 매일 접하는 수많은 기술의 기반이 됩니다. 구체적인 예시 두 가지를 소개합니다:

소매업에서의 고객 세분화: 전자상거래 플랫폼은 사전 정의된 범주 없이 수백만 건의 사용자 상호작용을 분석합니다. 클러스터링 알고리즘을 활용하여 "주말 특가 사냥꾼"이나 "기술 애호가"와 같은 독특한 사용자 페르소나를 식별합니다. 이를 통해 고도로 개인화된 마케팅 캠페인과 추천 시스템을 구현하여 고객 경험을 크게 향상시킵니다.
유전체 서열 분석: 생물정보학 분야에서 연구자들은 비지도 학습을 활용해 유전 정보를 분석한다. 알고리즘은 DNA 서열을 군집화하여 서로 다른 집단 간 유사한 유전적 표지자나 돌연변이를 찾아낸다. 이는 진화적 관계를 이해하고 특정 유전자 기능에 대한 사전 지식 없이도 질병에 대한 유전적 소인을 식별하는 데 기여한다.

코드 예시: Scikit-Learn을 이용한 클러스터링

한편 Ultralytics YOLO26 주로 지도 객체 탐지 프레임워크이지만, 앵커 박스 분포 분석이나 데이터셋 특징 클러스터링과 같은 전처리 단계에서는 비지도 기법이 종종 사용됩니다. 아래는 간단한 예시입니다. sklearn K-평균법 클러스터링을 수행하기 위해 기본적인 비지도 학습 기법입니다.

import numpy as np
from sklearn.cluster import KMeans

# Generate synthetic data: 10 points with 2 features each
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

# Initialize KMeans with 2 clusters (k=2)
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")

# Fit the model to the data (no labels provided!)
kmeans.fit(X)

# Predict which cluster each point belongs to
print(f"Labels: {kmeans.labels_}")
# Output will group the first 3 points together (0) and the last 3 together (1)

딥 러닝에서 비지도 학습의 역할

현대 딥러닝(DL)은 점차 비지도 학습 원리를 통합하고 있다. 자기지도학습(SSL) 과 같은 기법은 모델이 데이터로부터 자체 감독 신호를 생성하도록 합니다. 예를 들어 자연어 처리(NLP) 분야에서 GPT-4와 같은 모델은 방대한 양의 텍스트로 사전 훈련되어 문장 내 다음 단어를 예측하며, 명시적 레이블 없이도 언어 구조를 효과적으로 학습합니다.

마찬가지로 컴퓨터 비전(CV) 분야에서도 자동 인코더는 효율적인 데이터 인코딩을 학습하는 데 활용됩니다. 이러한 신경망은 이미지를 저차원 표현으로 압축한 후 이를 재구성합니다. 이 과정을 통해 네트워크는 시각 데이터의 가장 두드러진 특징을 학습하게 되며, 이는 이미지 노이즈 제거 및 생성 모델링과 같은 작업에 유용합니다.

훈련용 데이터셋 관리를 원하는 사용자를 위해 Ultralytics 데이터 분포를 시각화하는 도구를 제공합니다. 이를 통해 지도 학습 과정 시작 전에 클러스터나 이상값을 식별할 수 있습니다. 비지도 탐색을 통한 데이터 구조 이해는 견고한 AI 솔루션 구축을 위한 첫걸음이 되는 경우가 많습니다.

비지도 학습

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

비지도 학습의 작동 원리

비지도 학습의 핵심 기법

비지도 학습 대 지도 학습

실제 애플리케이션

코드 예시: Scikit-Learn을 이용한 클러스터링

딥 러닝에서 비지도 학습의 역할

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

단안 깊이 추정이란 무엇인가? 개요

Ultralytics YOLO 활용한 AI 위협 탐지 기술 분석

Ultralytics 커뮤니티 가입