OpenAI의 CLIP이 제로 샷 학습, 이미지-텍스트 정렬, 컴퓨터 비전 분야의 실제 애플리케이션을 통해 AI를 혁신하는 방법을 알아보세요.
CLIP(대조 언어-이미지 사전 학습)은 자연어 감독을 통해 시각적 개념을 학습하는 OpenAI에서 개발한 신경망입니다. 미리 정해진 카테고리의 고정된 세트에 대해 학습하는 기존의 컴퓨터 비전 모델과 달리 CLIP은 광범위한 텍스트 설명을 기반으로 이미지를 이해하고 분류할 수 있습니다. 이는 인터넷에서 스크랩한 이미지-텍스트 쌍의 방대한 데이터 세트로 모델을 학습시켜 이미지와 해당 텍스트 설명이 밀접하게 일치하는 공유 표현 공간을 학습시킴으로써 달성할 수 있습니다. 이 혁신적인 접근 방식을 통해 CLIP은 '제로 샷 학습'을 수행할 수 있으며, 이는 훈련 중에 명시적으로 본 적이 없는 카테고리에 대한 텍스트 설명을 이해함으로써 이미지를 해당 카테고리로 정확하게 분류할 수 있음을 의미합니다.
CLIP의 아키텍처는 이미지 인코더와 텍스트 인코더의 두 가지 주요 구성 요소로 이루어져 있습니다. 이미지 인코더는 일반적으로 비전 트랜스포머(ViT) 또는 잔여 네트워크(ResNet)로, 이미지를 처리하고 시각적 특징을 추출합니다. 텍스트 인코더는 자연어 처리(NLP)에 사용되는 것과 유사한 트랜스포머 모델인 경우가 많으며, 해당 텍스트 설명을 처리하고 의미적 특징을 추출합니다. 학습하는 동안 CLIP에는 이미지-텍스트 쌍이 일괄적으로 제공됩니다. 이 모델의 목표는 인코딩된 이미지 표현과 올바른 텍스트 설명 사이의 유사성을 최대화하는 동시에 이미지와 잘못된 텍스트 설명 사이의 유사성을 최소화하는 것입니다. 이는 대비 손실 함수를 통해 달성되며, 이 함수는 모델이 관련 이미지와 텍스트가 서로 가깝고 관련 없는 이미지와 텍스트가 멀리 떨어져 있는 공유 임베딩 공간을 학습하도록 장려합니다.
CLIP의 가장 큰 장점 중 하나는 제로 샷 학습을 수행할 수 있다는 점입니다. 이미지를 다양한 텍스트 개념과 연관시키는 방법을 학습하기 때문에 학습 중에 볼 수 없었던 새로운 카테고리로 일반화할 수 있습니다. 예를 들어, 고양이와 강아지의 이미지에 각각의 레이블을 붙여 학습한 CLIP은 '모자를 쓴 고양이' 이미지를 명시적으로 본 적이 없더라도 이를 '모자를 쓴 고양이'로 분류할 수 있습니다. 이러한 기능 덕분에 CLIP은 다양한 컴퓨터 비전(CV) 작업에 매우 적응력이 뛰어나고 다용도로 활용할 수 있습니다. 특히 데이터 세트의 크기나 다양성이 제한적인 경우, CLIP의 성능은 특정 데이터 세트에 대해 학습된 지도 모델의 성능을 능가하는 경우가 많습니다. 이는 CLIP이 인터넷에서 방대한 양의 사전 학습 데이터를 활용하여 시각적 개념을 더 폭넓게 이해하기 때문입니다.
CLIP의 고유한 기능 덕분에 다양한 실제 애플리케이션에서 채택되고 있습니다. 주목할 만한 두 가지 예가 있습니다:
CLIP은 다른 멀티 모달 모델과 몇 가지 유사점을 공유하지만, 대조 학습과 제로 샷 기능에 중점을 둔다는 점에서 두드러집니다. 시각적 질문 답변(VQA) 시스템과 같은 모델도 이미지와 텍스트를 모두 처리하지만, 일반적으로 범용 공유 표현 공간을 학습하기보다는 이미지에 대한 특정 질문에 답하도록 학습됩니다. 마찬가지로 이미지 캡션 시스템과 같은 모델은 이미지에 대한 텍스트 설명을 생성하지만, 쌍을 이루는 이미지-캡션 데이터 세트에 대한 지도 학습에 의존하는 경우가 많으며 CLIP처럼 보이지 않는 개념에 대해 잘 일반화하지 못할 수 있습니다. CLIP은 이러한 개념에 대한 명시적인 훈련 없이도 자연어 설명에서 광범위한 시각적 개념을 이해할 수 있기 때문에 AI 및 머신러닝의 다양한 애플리케이션을 위한 강력한 도구가 될 수 있습니다. 관련 비전 언어 모델에 대한 자세한 내용은 Ultralytics 블로그에서 확인할 수 있습니다.
CLIP의 인상적인 기능에도 불구하고 한계가 없는 것은 아닙니다. 한 가지 문제는 사전 학습 데이터의 품질과 다양성에 대한 의존도입니다. 데이터에 존재하는 편향이 모델의 학습된 표현에 반영되어 잠재적으로 불공정하거나 부정확한 예측으로 이어질 수 있습니다. 연구자들은 이러한 편향을 완화하고 CLIP과 같은 모델의 공정성을 개선하기 위한 방법을 적극적으로 연구하고 있습니다. 현재 진행 중인 또 다른 연구 분야는 세밀한 시각적 디테일과 복잡한 구도 개념을 이해하는 CLIP의 능력을 개선하는 것입니다. CLIP은 일반적인 시각적 개념을 포착하는 데는 탁월하지만, 정확한 공간 추론이나 개체 간의 복잡한 관계를 이해해야 하는 작업에는 어려움을 겪을 수 있습니다. 향후 모델 아키텍처, 학습 기술, 데이터 큐레이션의 발전은 이러한 한계를 해결하고 CLIP과 같은 모델의 기능을 더욱 향상시킬 것으로 기대됩니다. 예를 들어, CLIP을 Ultralytics YOLO 과 같은 모델과 통합하면 다양한 실제 애플리케이션을 위한 더욱 강력하고 다양한 시스템을 구축할 수 있습니다. Ultralytics 블로그에서 최신 AI에 대한 최신 정보를 확인할 수 있습니다.