용어집

제로 샷 학습

제로 샷 학습: 모델이 보이지 않는 데이터를 분류하여 객체 감지, NLP 등을 혁신하는 최첨단 AI 접근 방식에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

제로 샷 학습(ZSL)은 머신 러닝(ML) 에서 모델이 학습 중에 명시적으로 본 적이 없는 사물이나 개념을 인식하도록 훈련하는 흥미로운 영역입니다. 가능한 모든 카테고리에 대해 수많은 레이블이 지정된 예제를 필요로 하는 기존의 지도 학습 방법과 달리, ZSL은 새로운 클래스를 설명하는 보조 정보를 활용하여 모델이 보이지 않는 클래스에 대한 예측을 할 수 있게 해줍니다. 이 기능은 특히 생각할 수 있는 모든 카테고리에 대해 라벨이 지정된 데이터를 얻는 것이 비현실적이거나 불가능한 영역에서 보다 적응력 있고 확장 가능한 인공 지능(AI) 시스템을 구축하는 데 매우 중요합니다.

제로 샷 학습의 작동 방식

ZSL의 핵심 아이디어는 공유 시맨틱 공간을 사용해 보이는 클래스와 보이지 않는 클래스 사이의 간극을 메우는 것입니다. 이 공간은 텍스트나 지식 베이스에서 파생된 높은 수준의 설명, 속성 또는 임베딩에 의존하는 경우가 많습니다. 학습 중에 모델은 '보이는' 클래스의 예시만 사용하여 입력 데이터(예: 이미지 또는 텍스트)와 이 의미 공간 간의 매핑을 학습합니다. 예를 들어, 모델은 말과 호랑이 이미지(보이는 클래스)를 해당 속성(예: "발굽이 있다", "줄무늬가 있다", "포유류다")과 연관시키는 방법을 학습할 수 있습니다.

보이지 않는 클래스(예: 얼룩말)의 인스턴스가 제시되면 모델은 그 특징을 추출하여 학습된 의미 공간에 매핑합니다. 그런 다음 이 매핑을 보이지 않는 클래스의 의미론적 설명(예: 얼룩말을 설명하는 "줄무늬가 있다", "발굽이 있다", "포유류다"라는 속성)과 비교합니다. 이 공간에서 의미론적 설명이 가장 가까운 클래스가 예측으로 선택됩니다. 이 프로세스에는 종종 딥 러닝(DL)의 기술이 포함되며, 특징 추출을 위해 컨볼루션 신경망(CNN) 과 같은 아키텍처를 활용하고 시각적 특징을 의미적 속성과 연관시키는 매핑 기능을 사용하며, 때로는 비전 트랜스포머(ViT)CLIP 같은 모델의 개념을 활용하기도 합니다.

유사 개념과의 주요 차이점

ZSL을 관련 학습 패러다임과 구별하는 것이 중요합니다:

  • 소수 예제학습(FSL): FSL은 수업당 매우 적은 수의 레이블이 지정된 예시(예: 1~5개)를 통해 새로운 개념을 학습하는 것을 목표로 하는 반면, ZSL은 대상 수업에 레이블이 지정된 예시가 전혀 필요하지 않습니다. 소수 샷, 제로 샷 및 전이 학습의 이해에 대해 자세히 알아보세요.
  • 원샷 학습(OSL): 새로운 클래스마다 정확히 하나의 레이블이 지정된 예제가 제공되는 FSL의 특정 사례입니다.
  • 이전 학습: 한 과제에서 얻은 지식을 다른 관련 과제에 적용하는 보다 광범위한 개념입니다. ZSL은 전이 학습의 한 형태이지만, 특히 완전히 보이지 않는 클래스를 인식하기 위해 (종종 의미적 속성을 통해) 지식을 전수하는 데 중점을 둡니다. 다음과 같은 모델 Ultralytics YOLOv8 와 같은 모델은 맞춤형 학습을 위해 COCO와 같은 대규모 데이터 세트의 전이 학습을 활용하는 경우가 많습니다.
  • 자기 지도 학습(SSL): SSL 모델은 사전 작업(예: 입력의 마스크된 부분 예측)을 생성하여 레이블이 없는 데이터로부터 표현을 학습합니다. 사전 학습에는 유용하지만 SSL은 본질적으로 ZSL에서 사용되는 것과 같은 추가 메커니즘 없이는 보이지 않는 클래스를 처리하지 못합니다.

실제 애플리케이션

ZSL은 다양한 분야에 걸쳐 상당한 잠재력을 가지고 있습니다:

  1. 컴퓨터 비전(CV) - 세분화된 물체 인식: 훈련 데이터가 부족한 이미지에서 희귀종 동물, 식물 또는 특정 제품 모델을 식별합니다. 예를 들어, 일반적인 새에 대해 학습된 시스템은 사전 시각적 예시 없이도 깃털, 부리 모양, 서식지에 대한 텍스트 설명을 기반으로 희귀종을 식별할 수 있습니다. 이는 보이는 클래스에 대해서만 훈련된 표준 물체 감지 또는 이미지 분류를 넘어서는 기능을 확장합니다. YOLO 같은 모델은 개방형 어휘 감지를 위한 유사한 아이디어를 기반으로 합니다.
  2. 자연어 처리(NLP) - 토픽 식별 및 의도 인식: 문서, 이메일 또는 사용자 쿼리를 초기 학습 데이터 세트에 없는 새롭고 새로운 주제나 의도로 분류합니다. 예를 들어, 고객 지원 챗봇은 새로 출시된 제품 기능에 대한 쿼리를 해당 쿼리에 대한 명시적인 학습 예제 없이도 기능의 설명을 사용하여 분류할 수 있습니다. 이는 GPT-4와 같은 대규모 언어 모델(LLM) 의 강력한 기능을 활용합니다.

과제와 향후 방향

ZSL은 그 가능성에도 불구하고 허브 문제 (의미 공간의 일부 점이 여러 점과 가장 가까운 이웃이 되는 경우)와 도메인 이동 (특징과 속성 간의 관계가 보이는 클래스와 보이지 않는 클래스 간에 다른 경우)과 같은 문제에 직면해 있습니다. 보다 강력한 시맨틱 임베딩, 더 나은 매핑 기능, 추론 중에 보이는 클래스와 보이지 않는 클래스를 모두 인식하는 것을 목표로 하는 일반화된 제로 샷 학습(GZSL)과 같은 기법에 대한 연구가 계속되고 있습니다. Ultralytics 허브와 같은 플랫폼의 개발은 ZSL 기능을 실제 비전 AI 애플리케이션에 통합하고 배포하는 것을 용이하게 할 수 있습니다. 더 나아가 비전과 언어를 본질적으로 연결하는 멀티 모달 모델에서 영감을 얻을 수도 있습니다.

모두 보기