용어집

반지도 학습

준지도 학습이 어떻게 라벨링된 데이터와 라벨링되지 않은 데이터를 결합하여 AI 모델을 개선하고, 라벨링 비용을 절감하며, 정확도를 높이는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

준지도 학습은 지도 학습과 비지도 학습 사이의 간극을 메우는 머신 러닝의 한 분야입니다. 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 활용하여 모델을 학습시킵니다. 많은 실제 시나리오에서 레이블이 지정된 데이터를 얻는 데는 많은 비용과 시간이 소요될 수 있으며, 전문가가 수동으로 주석을 달아야 합니다. 반면에 레이블이 없는 데이터는 대개 대량으로 쉽게 구할 수 있습니다. 준지도 학습 기법은 이러한 풍부한 라벨링되지 않은 데이터를 활용하여 특히 라벨링된 데이터가 부족한 경우 모델의 성능을 향상시킵니다.

반지도 학습의 작동 방식

라벨이 지정된 데이터에만 의존하는 지도 학습과 라벨이 지정되지 않은 데이터만 사용하는 비지도 학습과 달리, 준지도 학습은 이 두 가지를 결합한 것입니다. 핵심 아이디어는 라벨이 지정되지 않은 데이터에는 데이터 분포의 기본 구조에 대한 중요한 정보가 포함되어 있다는 것입니다. 이 정보를 통합함으로써 준지도 학습 모델은 제한된 레이블이 지정된 데이터로만 학습된 모델보다 정확도와 일반화가 더 잘 되는 경우가 많습니다.

다음과 같은 몇 가지 기술이 반지도 학습의 범주에 속합니다:

  • 의사 라벨링: 이 방법은 레이블이 지정된 데이터에 대해 모델을 학습시킨 다음 레이블이 지정되지 않은 데이터의 레이블을 예측하는 데 사용합니다. 이렇게 예측된 레이블, 즉 '의사 레이블'은 실제 레이블인 것처럼 취급되어 모델을 재학습하는 데 사용되며, 종종 반복적으로 사용됩니다.
  • 일관성 정규화: 이 접근 방식은 레이블이 없는 데이터 포인트가 약간 교란되거나 증강된 경우에도 모델이 유사한 예측을 생성하도록 장려합니다. 데이터 증강과 같은 기술은 이러한 교란을 생성하는 데 자주 사용됩니다.
  • 그래프 기반 방법: 이 방법은 데이터 포인트를 그래프의 노드로 나타내며, 가장자리가 유사한 포인트를 연결합니다. 그런 다음 그래프 구조에 따라 레이블이 지정된 노드에서 레이블이 지정되지 않은 노드로 레이블이 전파됩니다.
  • 자가 학습: 의사 라벨링과 유사하게, 자가 학습은 라벨링되지 않은 데이터에 신뢰도가 높은 예측을 추가하여 라벨링된 데이터 집합을 반복적으로 확장합니다.

반지도 학습의 응용

반지도 학습은 다양한 영역에서 유용하며, 특히 레이블이 지정된 데이터가 제한적인 경우에 유용합니다:

  • 의료 이미지 분석: 의료 이미지 분석에서 종양 탐지나 질병 분류와 같은 작업을 위해 라벨이 지정된 의료 이미지를 확보하려면 전문 방사선 전문의가 필요한 경우가 많기 때문에 비용과 시간이 많이 소요됩니다. 준지도 학습은 라벨이 지정된 작은 이미지 세트와 라벨이 지정되지 않은 더 큰 스캔 풀을 사용하여 정확한 모델을 훈련하는 데 도움이 될 수 있습니다. 예를 들어, 물체 감지를 위해 Ultralytics YOLO 을 사용하는 뇌종양 탐지에서 반지도 학습 기법은 제한된 레이블이 지정된 MRI 데이터로 모델 성능을 향상시킬 수 있습니다.
  • 자연어 처리(NLP): 감성 분석이나 명명된 개체 인식(NER) 과 같은 작업은 종종 준지도 학습의 이점을 누릴 수 있습니다. 대량의 텍스트 데이터는 쉽게 구할 수 있지만, 특정 NLP 작업을 위해 텍스트에 라벨을 붙이는 작업은 힘들 수 있습니다. 준지도 방식은 레이블이 없는 텍스트를 활용하여 언어 뉘앙스와 문맥에 대한 모델의 이해를 향상시킬 수 있습니다.
  • 음성 인식: NLP와 마찬가지로 음성 인식 시스템도 라벨링되지 않은 방대한 양의 오디오 데이터를 활용할 수 있습니다. 준지도 학습은 제한된 레이블이 지정된 음성 데이터로도 잘 일반화되는 강력한 모델을 구축하는 데 도움이 됩니다.
  • 이미지 분류 및 물체 감지: 이미지 분류물체 감지와 같은 컴퓨터 비전 작업에서 준지도 학습을 사용해 다음과 같은 모델의 성능을 개선할 수 있습니다. Ultralytics YOLOv8 이미지의 일부만 경계 상자나 레이블로 주석이 달린 데이터 세트에서 훈련할 때와 같은 모델의 성능을 향상시키는 데 사용할 수 있습니다. Ultralytics HUB를 사용하여 데이터 세트를 관리하고 모델을 훈련할 수 있으며, 반지도 학습을 통합하여 제한된 레이블이 지정된 데이터로 훈련을 최적화할 수 있습니다.

반지도 학습의 장점

  • 정확도 향상: 레이블이 지정되지 않은 데이터를 활용함으로써 반지도 학습은 제한된 레이블이 지정된 데이터를 사용하는 지도 학습에 비해 더 높은 정확도를 가진 모델을 만들 수 있습니다.
  • 라벨 제작 비용 절감: 광범위한 수동 데이터 라벨링의 필요성을 크게 줄여 시간과 리소스를 절약할 수 있습니다.
  • 더 나은 일반화: 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터 모두로 학습하면 모델이 보다 강력하고 일반화 가능한 표현을 학습하여 보이지 않는 데이터에 대한 성능을 향상시킬 수 있습니다.

준지도 학습은 특히 라벨이 지정된 데이터가 병목 현상을 일으키는 시나리오에서 머신 러닝에 대한 강력한 접근 방식을 제공합니다. 라벨링되지 않은 풍부한 데이터를 효과적으로 활용함으로써 다양한 애플리케이션에서 보다 정확하고 효율적인 AI 시스템을 개발할 수 있습니다.

모두 보기