Yolo 비전 선전
선전
지금 참여하기
용어집

대조 학습

기계 학습에서 대비 학습을 탐구하세요. Ultralytics 및 컴퓨터 비전을 위한 강력한 AI 특징을 구축하기 위해 자기 지도 학습 데이터를 어떻게 활용하는지 알아보세요.

대조 학습은 유사한 샘플과 상이한 샘플을 비교함으로써 모델이 데이터를 이해하도록 가르치는 기계 학습 패러다임이다. 수동으로 라벨링된 데이터셋에 크게 의존하는 전통적인 지도 학습과 달리, 대조 학습은 주로 자기 지도 학습 맥락에서 활용된다. 핵심 아이디어는 단순하면서도 강력하다: 모델은 벡터 공간 내에서 관련 항목(양성 쌍)의 표현을 서로 가깝게 끌어당기는 동시에 무관한 항목(음성 쌍)을 더 멀리 밀어내는 법을 학습한다. 이 과정을 통해 알고리즘은 방대한 양의 라벨링되지 않은 데이터로부터 견고하고 일반화 가능한 특징을 구축할 수 있으며, 이는 인공지능의 확장에 있어 핵심적이다. 벡터 공간에서 서로 가깝게 끌어당기는 동시에 관련 없는 항목들(네거티브 페어)은 멀리 밀어내는 법을 학습합니다. 이 과정을 통해 알고리즘은 방대한 양의 라벨링되지 않은 데이터로부터 견고하고 일반화 가능한 특징들을 구축할 수 있으며, 이는 인공지능(AI) 시스템의 확장에 매우 중요합니다.

대조 학습의 메커니즘

대조 학습의 핵심은 비교를 통한 학습 개념입니다. 특정 이미지가 "고양이"라는 것을 암기하는 대신, 모델은 서로 다른 두 고양이 사진이 개 사진보다 서로 더 유사하다는 것을 학습합니다. 이는 일반적으로 데이터 증강을 통해 달성됩니다. "앵커"라고 불리는 입력 이미지는 자르기, 뒤집기, 색상 지터링 등의 기법을 통해 두 가지 다른 버전으로 변환됩니다. 이 두 버전이 양성 쌍을 형성합니다. 모델은 배치 내 다른 무작위 이미지(음성 샘플)와의 거리를 최대화하면서 이들 임베딩 간의 거리를 최소화하도록 훈련됩니다.

이 접근법은 신경망이 저수준 픽셀 세부사항보다 고수준 의미적 특징에 집중하도록 돕습니다. 예를 들어, 자동차가 빨간색인지 파란색인지, 또는 왼쪽을 향하는지 오른쪽을 향하는지에 상관없이 '자동차'라는 근본 개념은 동일하게 유지됩니다. 이러한 표면적 변이를 무시함으로써 모델은 시각적 세계에 대한 더 깊은 이해를 발전시키며, 이는 물체 탐지 및 분류와 같은 하류 작업에 상당한 이점을 제공합니다.

실제 애플리케이션

대조 학습은 특히 라벨링된 데이터가 부족하거나 획득 비용이 높은 분야에서 최첨단 AI 애플리케이션의 핵심 기술로 자리매김했습니다.

  1. 제로샷 이미지 분류: CLIP(대조적 언어-이미지 사전 훈련)과 같은 모델은 대조적 학습을 활용해 공통된 특징 공간에서 이미지와 텍스트를 정렬합니다. 수백만 개의 이미지-텍스트 쌍으로 훈련함으로써 모델은 시각적 개념을 자연어 설명과 연관시키는 법을 학습합니다. 이를 통해 모델은 훈련 과정에서 본 적 없는 범주로 classify 수 있는 제로샷 학습이 가능해지며, 이는 단순히 이미지를 텍스트 프롬프트와 매칭하는 방식으로 이루어집니다.
  2. 의료 영상용 견고한 사전 훈련: 의료 분야에서 전문가 라벨링이 적용된 의료 스캔을 확보하는 것은 비용이 많이 들고 시간이 소요됩니다. 연구자들은 대조 학습을 활용하여 라벨이 없는 방대한 X선 또는 MRI 스캔 데이터베이스로 모델을 사전 훈련합니다. 이 비지도 사전 훈련은 강력한 백본을 생성하며, 소량의 라벨링된 예시만으로 미세 조정되어 폐렴이나 종양과 같은 detect 높은 정확도로 detect 수 있습니다. 이 기술은 전이 학습을 활용하여 의료 AI 분야의 진단 도구를 개선합니다.

관련 개념 구분하기

대조 학습을 유사한 기법과 구분하는 것은 기계 학습(ML) 환경에서 그 고유한 역할을 이해하는 데 도움이 된다.

  • vs. 자동 인코더: 둘 다 비지도 학습 방법이지만, 자동 인코더는 입력 데이터를 픽셀 단위로 재구성하여 병목 레이어로 압축하는 것을 목표로 합니다. 반면 대조 학습은 이미지를 재현하려 하지 않고, 서로 다른 개념을 구분하는 판별적 표현을 학습하는 데만 집중합니다.
  • vs. 생성적 적대적 네트워크(GAN): GAN은 가짜 데이터를 생성하는 생성자와 detect 판별자로 구성됩니다. 대조적 학습은 데이터 생성보다는 표현 학습에 중점을 두어 검색, 추출, 분류와 같은 작업에 더 적합합니다.
  • vs. 삼중 손실: 전통적인 삼중 손실은 앵커, 양성 샘플, 음성 샘플을 명시적으로 요구합니다. SimCLR이나 MoCo와 같은 현대적 대조적 학습법은 배치 내에서 앵커를 다수의 음성 샘플과 동시에 비교함으로써 이를 일반화하며, 종종 InfoNCE와 같은 특정 손실 함수를 사용합니다.

임베딩을 활용한 실용적 예시

대조적 모델을 처음부터 훈련하는 것은 자원이 많이 소모되지만, 사전 훈련된 모델을 활용하여 특징을 추출하는 것은 쉽습니다. 다음 예시는 모델을 로드하고 이미지를 위한 특징 벡터(임베딩)를 추출하는 방법을 보여줍니다. ultralytics 패키지. 이 임베딩은 대조적 사전 훈련과 유사한 기법을 통해 학습된 의미적 내용을 나타냅니다.

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Run inference on an image to get the results
# The 'embed' argument can be used in advanced workflows to extract feature layers
results = model("https://ultralytics.com/images/bus.jpg")

# Access the top predicted class probability
# This prediction is based on the learned feature representations
print(f"Top class: {results[0].names[results[0].probs.top1]}")
print(f"Confidence: {results[0].probs.top1conf:.4f}")

이러한 풍부하고 의미 있는 특징을 추출하는 능력은 현대적인 컴퓨터 비전(CV) 시스템 구축에 대비적 학습을 필수적으로 만들며, 효율적인 이미지 검색과고급 분석을 가능하게 합니다. 이러한 고급 아키텍처의 혜택을 받는 데이터셋 관리 및 맞춤형 모델 훈련을 위해 Ultralytics 배포 및 모니터링을 위한 간소화된 환경을 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기