용어집

반지도 학습

준지도 학습이 어떻게 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 결합하여 모델 정확도를 높이고, 레이블 지정 노력을 절감하며, 실제 문제를 해결하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

준지도 학습은 라벨이 지정된 데이터와 라벨이 지정되지 않은 데이터를 모두 활용하여 모델을 학습시키는 머신 러닝(ML)의 강력한 접근 방식입니다. 이 기술은 레이블이 지정된 데이터를 얻는 데 비용이 많이 들거나 시간이 오래 걸리는 반면 레이블이 지정되지 않은 데이터는 풍부하고 쉽게 구할 수 있을 때 특히 유용합니다. 지도 학습과 비지도 학습의 강점을 결합한 준지도 학습은 라벨이 완전히 지정된 데이터 세트에 대한 의존도를 줄이면서 높은 정확도를 달성할 수 있어 다양한 실제 애플리케이션에서 유용한 도구가 될 수 있습니다.

반지도 학습의 작동 방식

반지도 학습 알고리즘은 소량의 레이블이 지정된 데이터를 사용하여 학습 과정을 안내하는 동시에 레이블이 지정되지 않은 더 큰 데이터 풀에서 패턴과 구조를 추출합니다. 레이블이 지정된 데이터는 명시적인 감독을 제공하여 모델에 입력과 출력 간의 특정 관계를 가르칩니다. 반면에 레이블이 지정되지 않은 데이터는 모델이 데이터의 기본 분포와 특징을 학습하는 데 도움을 주어 보이지 않는 새로운 예시로 일반화할 수 있는 능력을 향상시킵니다.

반지도 학습에는 다음과 같은 여러 가지 접근 방식이 있습니다:

  • 자가 학습: 모델은 처음에 레이블이 지정된 데이터에 대해 학습된 다음 레이블이 지정되지 않은 데이터의 레이블을 예측하는 데 사용됩니다. 신뢰도가 높은 예측이 레이블이 지정된 집합에 추가되고 모델은 반복적으로 재학습됩니다.
  • 공동 학습: 두 개 이상의 모델이 서로 다른 보기 또는 레이블이 지정된 데이터의 하위 집합에 대해 학습됩니다. 그런 다음 각 모델은 레이블이 지정되지 않은 데이터에 레이블을 지정하고 예측을 사용하여 다른 모델에 대한 학습 집합을 보강합니다.
  • 생성 모델: 생성적 적대 신경망(GAN)과 같은 이러한 모델은 데이터와 레이블의 공동 확률 분포를 학습합니다. 그런 다음 학습된 분포를 기반으로 새로운 데이터 포인트를 생성하거나 누락된 레이블을 추론할 수 있습니다.
  • 그래프 기반 방법: 이 방법은 데이터를 그래프로 표현하며, 노드는 데이터 포인트(레이블이 있는 데이터 포인트와 레이블이 없는 데이터 포인트 모두)이고 가장자리는 데이터 포인트 간의 유사성을 나타냅니다. 레이블 정보는 그래프를 통해 전파되므로 모델이 레이블이 없는 노드의 레이블을 유추할 수 있습니다.

반지도 학습의 장점

반지도 학습은 몇 가지 주요 이점을 제공합니다:

  • 라벨링 노력 감소: 준지도 학습은 라벨링되지 않은 데이터를 활용함으로써 광범위한 수동 라벨링의 필요성을 크게 줄여 시간과 리소스를 절약합니다.
  • 정확도 향상: 레이블이 지정되지 않은 데이터를 포함하면 모델이 데이터 분포에 대한 보다 포괄적인 표현을 학습할 수 있으므로 레이블이 지정된 데이터만 사용할 때보다 정확도가 향상되는 경우가 많습니다.
  • 일반화 능력 향상: 레이블이 지정된 예시와 레이블이 지정되지 않은 예시를 모두 포함하여 더 크고 다양한 데이터 세트에 노출되면 보이지 않는 데이터에 대한 모델의 일반화 능력이 향상됩니다.
  • 풍부한 라벨 없는 데이터 활용: 많은 도메인에서 라벨이 없는 데이터(예: 인터넷의 이미지, 웹 페이지의 텍스트)를 쉽게 사용할 수 있습니다. 준지도 학습을 통해 이러한 방대한 리소스를 활용할 수 있습니다.

반지도 학습의 응용

반지도 학습은 다음과 같은 다양한 영역에서 응용 분야를 찾습니다:

  • 컴퓨터 비전: 물체 감지, 이미지 분류, 이미지 분할 작업은 특히 레이블이 지정된 이미지가 부족한 경우 준지도 학습의 이점을 누릴 수 있습니다. 예를 들어, 라벨이 지정된 작은 이미지 세트와 인터넷의 라벨이 지정되지 않은 대규모 이미지 컬렉션을 사용하여 이미지에서 특정 물체를 감지하도록 모델을 훈련할 수 있습니다. Ultralytics YOLO 모델이 혁신적인 솔루션으로 컴퓨터 비전을 어떻게 변화시키고 있는지 살펴보세요.
  • 자연어 처리: 감정 분석, 텍스트 분류, 명명된 개체 인식은 라벨이 지정된 텍스트 데이터가 제한되어 있을 때 준지도 학습을 활용하여 성능을 향상시킬 수 있습니다. 예를 들어, 라벨이 지정된 소수의 리뷰와 온라인 포럼의 라벨이 지정되지 않은 대규모 리뷰 코퍼스를 사용하여 제품 리뷰의 감성을 분류하도록 모델을 훈련할 수 있습니다. 자연어 처리(NLP)에 대해 자세히 알아보세요.
  • 의료 진단: 의료 분야에서는 개인정보 보호 문제와 전문가의 주석이 필요하기 때문에 라벨이 지정된 의료 데이터를 확보하는 것이 어려울 수 있습니다. 준지도 학습은 라벨이 지정된 환자 데이터와 라벨이 지정되지 않은 환자 데이터의 조합을 사용하여 질병 진단, 의료 영상 분석, 신약 개발을 위한 모델을 훈련하는 데 사용할 수 있습니다. 의료 분야의 AI에 대해 자세히 알아보세요.
  • 사기 탐지: 준지도 학습은 라벨이 지정된 소수의 사기 거래와 라벨이 지정되지 않은 대량의 거래 데이터로부터 학습하여 사기 탐지 시스템을 향상시킬 수 있습니다. 이 모델은 제한된 레이블이 지정된 예시만 있어도 사기를 나타내는 패턴과 이상 징후를 식별할 수 있습니다.

다른 학습 패러다임과의 비교

준지도 학습은 다음과 같은 점에서 지도 학습비지도 학습과 다릅니다:

  • 지도 학습: 학습을 위해 라벨링된 데이터에만 의존합니다. 정확도는 높지만 라벨링된 데이터의 가용성과 비용에 따라 제한될 수 있습니다.
  • 비지도 학습: 레이블이 없는 데이터만 사용해 패턴과 구조를 발견합니다. 탐색적 분석에는 유용하지만, 입력을 특정 출력에 매핑하는 방법을 직접 학습하지는 않습니다.
  • 준지도 학습: 지도 학습과 비지도 학습 간의 균형을 유지하여 라벨링된 데이터와 라벨링되지 않은 데이터를 모두 활용하여 더 적은 라벨링 노력으로 더 나은 성능을 달성합니다.

반지도 학습은 모델이 오라클(예: 인간 전문가)이 레이블을 지정할 가장 유익한 레이블이 없는 데이터 요소를 능동적으로 선택하는 능동 학습의 한 형태로도 볼 수 있습니다. 그러나 준지도 학습에서는 모델이 새로운 레이블을 적극적으로 쿼리하기보다는 주로 기존의 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터의 구조에 의존합니다.

관련 머신 러닝 개념에 대한 자세한 내용은 Ultralytics 용어집을 참조하세요.

모두 보기