제로 샷 학습: 모델이 보이지 않는 데이터를 분류하여 객체 감지, NLP 등을 혁신하는 최첨단 AI 접근 방식에 대해 알아보세요.
제로 샷 학습(ZSL)은 머신 러닝(ML) 에서 모델이 학습 중에 명시적으로 본 적이 없는 사물이나 개념을 인식하도록 훈련하는 흥미로운 영역입니다. 가능한 모든 카테고리에 대해 수많은 레이블이 지정된 예제를 필요로 하는 기존의 지도 학습 방법과 달리, ZSL은 새로운 클래스를 설명하는 보조 정보를 활용하여 모델이 보이지 않는 클래스에 대한 예측을 할 수 있게 해줍니다. 이 기능은 특히 생각할 수 있는 모든 카테고리에 대해 라벨이 지정된 데이터를 얻는 것이 비현실적이거나 불가능한 영역에서 보다 적응력 있고 확장 가능한 인공 지능(AI) 시스템을 구축하는 데 매우 중요합니다.
ZSL의 핵심 아이디어는 공유 시맨틱 공간을 사용해 보이는 클래스와 보이지 않는 클래스 사이의 간극을 메우는 것입니다. 이 공간은 텍스트나 지식 베이스에서 파생된 높은 수준의 설명, 속성 또는 임베딩에 의존하는 경우가 많습니다. 학습 중에 모델은 '보이는' 클래스의 예시만 사용하여 입력 데이터(예: 이미지 또는 텍스트)와 이 의미 공간 간의 매핑을 학습합니다. 예를 들어, 모델은 말과 호랑이 이미지(보이는 클래스)를 해당 속성(예: "발굽이 있다", "줄무늬가 있다", "포유류다")과 연관시키는 방법을 학습할 수 있습니다.
보이지 않는 클래스(예: 얼룩말)의 인스턴스가 제시되면 모델은 그 특징을 추출하여 학습된 의미 공간에 매핑합니다. 그런 다음 이 매핑을 보이지 않는 클래스의 의미론적 설명(예: 얼룩말을 설명하는 "줄무늬가 있다", "발굽이 있다", "포유류다"라는 속성)과 비교합니다. 이 공간에서 의미론적 설명이 가장 가까운 클래스가 예측으로 선택됩니다. 이 프로세스에는 종종 딥 러닝(DL)의 기술이 포함되며, 특징 추출을 위해 컨볼루션 신경망(CNN) 과 같은 아키텍처를 활용하고 시각적 특징을 의미적 속성과 연관시키는 매핑 기능을 사용하며, 때로는 비전 트랜스포머(ViT) 나 CLIP 같은 모델의 개념을 활용하기도 합니다.
ZSL을 관련 학습 패러다임과 구별하는 것이 중요합니다:
ZSL은 다양한 분야에 걸쳐 상당한 잠재력을 가지고 있습니다:
ZSL은 그 가능성에도 불구하고 허브 문제 (의미 공간의 일부 점이 여러 점과 가장 가까운 이웃이 되는 경우)와 도메인 이동 (특징과 속성 간의 관계가 보이는 클래스와 보이지 않는 클래스 간에 다른 경우)과 같은 문제에 직면해 있습니다. 보다 강력한 시맨틱 임베딩, 더 나은 매핑 기능, 추론 중에 보이는 클래스와 보이지 않는 클래스를 모두 인식하는 것을 목표로 하는 일반화된 제로 샷 학습(GZSL)과 같은 기법에 대한 연구가 계속되고 있습니다. Ultralytics 허브와 같은 플랫폼의 개발은 ZSL 기능을 실제 비전 AI 애플리케이션에 통합하고 배포하는 것을 용이하게 할 수 있습니다. 더 나아가 비전과 언어를 본질적으로 연결하는 멀티 모달 모델에서 영감을 얻을 수도 있습니다.