Yolo 비전 선전
선전
지금 참여하기
용어집

준지도 학습

반지도 학습이 라벨링된 데이터와 라벨링되지 않은 데이터를 결합하여 모델 정확도를 향상시키는 방식을 살펴보세요. Ultralytics 사용하여 SSL 워크플로를 구현하는 방법을 배워보세요.

반지도 학습(SSL)은 기계 학습(ML) 에서 두 가지 전통적인 훈련 방법 사이의 가교 역할을 하는 전략적 패러다임입니다. 지도 학습이 완전히 주석이 달린 데이터셋에 전적으로 의존하고 비지도 학습이 어떠한 태그 없이 데이터에서 패턴을 찾으려 시도하는 반면, SSL은 소량의 라벨링된 데이터와 훨씬 더 방대한 양의 라벨링되지 않은 데이터 풀을 결합하여 작동합니다. 이 접근법은 특히 보안 카메라나 위성 영상과 같은 원시 이미지 수집은 상대적으로 저렴하지만, 전문가들에 의한 데이터 라벨링 과정은 비용이 많이 들고 느리며 노동 집약적인 실제 컴퓨터 비전(CV) 시나리오에서 매우 유용합니다. 라벨링되지 않은 예시 안에 숨겨진 구조를 효과적으로 활용함으로써, SSL은 방대한 주석 예산 없이도 모델 정확도와 일반화 능력을 크게 향상시킬 수 있습니다.

반지도 학습의 핵심 메커니즘

SSL의 주요 목표는 소규모의 라벨링된 예제 집합에서 발견된 정보를 더 큰 규모의 라벨링되지 않은 집합으로 전파하는 것이다. 이를 통해 신경망은 데이터의 저밀도 영역을 통과하는 결정 경계를 학습할 수 있으며, 결과적으로 보다 견고한 분류 또는 탐지가 가능해진다.

대부분의 반지도 학습 워크플로를 주도하는 두 가지 인기 있는 기법은 다음과 같습니다:

  • 의사 라벨링: 이 방법에서는 먼저 제한된 라벨링 데이터로 모델을 훈련시킵니다. 이후 이 모델을 사용하여 라벨링되지 않은 데이터에 대해 추론을 실행합니다. 특정 신뢰도 임계값을 초과하는 예측값은 "의사 라벨" 또는 진실값으로 취급됩니다. 이러한 신뢰도 높은 예측값은 훈련 데이터에 추가되며, 모델은 재훈련되어 성능을 반복적으로 향상시킵니다.
  • 일관성 정규화: 이 기법은 데이터 증강에 의존합니다. 핵심 아이디어는 모델이 동일한 이미지와 그 이미지의 약간 변형된(증강된) 버전에 대해 유사한 예측을 출력해야 한다는 점입니다. 원본과 증강된 버전 간의 예측 차이를 최소화함으로써, 모델은 잡음보다는 대상의 핵심 특징에 집중하도록 학습하여 과적합을 처리하는 능력을 향상시킵니다.

YOLO 활용한 실용적 구현

다음 Python ultralytics 패키지를 사용한 간단한 의사 라벨링 워크플로를 보여줍니다. 여기서 우리는 작은 데이터셋으로 YOLO26 모델을 훈련한 후, 이를 사용하여 라벨이 지정되지 않은 이미지 디렉토리에 대한 라벨을 생성합니다.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train initially on a small available labeled dataset
model.train(data="coco8.yaml", epochs=10)

# Run inference on unlabeled data to generate pseudo-labels
# Setting save_txt=True saves the detections as text files for future training
results = model.predict(source="./unlabeled_images", save_txt=True, conf=0.85)

실제 애플리케이션

반지도 학습은 데이터는 풍부하지만 전문성은 부족한 산업을 변화시키고 있다.

  • 의료 영상: 의료 AI 분야에서 스캔(X선, MRI) 획득은 표준 절차이지만, 종양 검출을위해 보드 인증 방사선 전문의가 모든 픽셀을 주석 처리하는 것은 비용이 너무 많이 듭니다. 자동 학습(SSL)은 연구자들이 전문가 주석이 달린 사례의 일부만 사용하여 고성능 모델을 훈련할 수 있게 하며, 수천 건의 보관된 스캔을 활용하여 모델의 생물학적 구조에 대한 이해를 정교화합니다.
  • 자율주행: 자율주행차 기업들은 매일 차량 군에서 페타바이트 단위의 영상 데이터를 수집합니다. 물체 탐지의미적 분할을 위해 모든 프레임을 라벨링하는 것은 불가능합니다. SSL(Supervised Self-Supervised Learning)을 통해 시스템은 라벨링되지 않은 대부분의 주행 시간으로부터 학습하여 복잡한 도로 환경, 기상 조건 및 드문 극단적 사례를 더 잘 이해할 수 있습니다.

관련 개념 구분하기

AI 솔루션을 효과적으로 배포하려면 SSL이 유사한 전략과 어떻게 다른지 이해하는 것이 중요합니다:

  • vs. 능동적 학습: 둘 다 라벨이 없는 데이터를 다루지만, 라벨링 접근 방식은 다릅니다. SSL은 모델 예측을 기반으로 라벨을 자동으로 할당합니다. 반면 능동적 학습은 가장 "혼란스러운" 또는 불확실한 데이터 포인트를 식별하고 명시적으로 인간이 개입하는 과정을 통해 라벨링을 요청합니다. 이를 통해 데이터를 완전히 제거하기보다는 인간의 시간을 최적화합니다.
  • vs. 전이 학습: 전이 학습은 대규모 외부 데이터셋(예: ImageNet)에서 사전 훈련된 모델을 가져와 특정 작업에 맞게 미세 조정하는 것입니다. 반면 SSL은 훈련 과정 자체에서 특정 데이터셋 분포의 라벨이 없는 부분을 활용하는 데 중점을 둡니다.
  • vs. 자기지도 학습: 비록 이름이 유사하지만, 자기지도 학습은 종종 "사전 작업"(예: 이미지 패치로 구성된 직소 퍼즐 풀기)을 의미하며, 이 경우 데이터가 외부 레이블 없이 자체적으로 지도 신호를 생성합니다. SSL은 특히 검증된 소규모 레이블 집합을 사용하여 과정을 안내하는 방식을 암시합니다.

도구 및 향후 전망

딥 러닝(DL) 모델의 규모가 커짐에 따라 데이터 활용 효율성이 가장 중요해집니다. PyTorchTensorFlow 는 이러한 고급 훈련 루프를 위한 계산 백엔드를 제공합니다. 또한 Ultralytics 같은 도구는 데이터셋 관리 라이프사이클을 간소화하고 있습니다. 자동 주석과 같은 기능을 활용함으로써 팀은 반지도 워크플로를 보다 쉽게 구현하여 원시 데이터를 신속하게 생산 준비 완료 상태의 모델 가중치로 전환할 수 있습니다. 이러한 MLOps의 진화는 고정밀 비전 시스템 구축의 진입 장벽이 지속적으로 낮아지고 있음을 보장합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기