준지도 학습이 어떻게 라벨링된 데이터와 라벨링되지 않은 데이터를 결합하여 AI 모델을 개선하고, 라벨링 비용을 절감하며, 정확도를 높이는지 알아보세요.
준지도 학습(SSL)은 지도 학습 과 비지도 학습 사이의 간극을 메우는 머신 러닝(ML) 기법입니다. 소량의 라벨링된 데이터와 대량의 라벨링되지 않은 데이터를 함께 활용하여 학습 정확도를 향상시킵니다. 많은 실제 시나리오에서 라벨링되지 않은 데이터를 확보하는 것은 저렴하지만, 데이터 라벨링 프로세스는 비용과 시간이 많이 소요됩니다. SSL은 모델이 라벨이 없는 방대한 예제 풀에서 라벨이 지정된 작은 집합이 제공하는 구조와 정보에 따라 학습할 수 있도록 함으로써 이 문제를 해결합니다. 이 접근 방식은 모델이 고성능을 달성하기 위해 방대한 데이터 세트가 필요한 딥 러닝(DL)에서 특히 강력합니다.
SSL의 핵심 아이디어는 레이블이 지정된 데이터를 사용하여 초기 모델을 구축한 다음 이 모델을 사용하여 레이블이 지정되지 않은 데이터를 예측하는 것입니다. 그런 다음 모델의 가장 확실한 예측을 '의사 레이블'로 처리하여 학습 세트에 추가합니다. 그런 다음 모델은 이 원본 레이블과 신뢰도가 높은 의사 레이블의 조합으로 재학습됩니다. 이 반복적인 프로세스를 통해 모델은 레이블이 지정된 작은 부분뿐만 아니라 전체 데이터 세트의 기본 구조를 학습할 수 있습니다.
일반적인 SSL 기술은 다음과 같습니다:
SSL은 라벨링이 병목 현상을 일으키는 도메인에서 매우 효과적입니다. 두 가지 대표적인 예가 있습니다:
SSL을 관련 인공 지능(AI) 개념과 구분하는 것이 중요합니다:
PyTorch(PyTorch 공식 사이트) 및 TensorFlow(TensorFlow 공식 사이트)를 비롯한 많은 최신 딥러닝(DL) 프레임워크는 SSL 알고리즘을 구현하기 위한 기능을 제공하거나 이를 조정할 수 있습니다. Scikit-learn과 같은 라이브러리는 일부 SSL 방법을 제공합니다. Ultralytics HUB와 같은 플랫폼은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터가 혼합된 데이터 세트의 관리를 용이하게 하고, 이러한 데이터 구조를 활용하도록 설계된 모델의 학습 및 배포를 간소화하여 프로세스를 간소화합니다. SSL에 대한 연구는 계속해서 발전하고 있으며, NeurIPS 및 ICML과 같은 주요 AI 컨퍼런스에서 종종 발표되고 있습니다.