녹색 확인
링크가 클립보드에 복사됨

Google의 팔리젬마 2: 고급 VLM 모델에 대한 인사이트

Google의 새로운 비전 언어 모델을 자세히 살펴보세요: 팔리젬마 2. 이 모델은 이미지와 텍스트를 모두 이해하고 분석하는 데 도움이 될 수 있습니다.

2024년 12월 5일, Google 은 최첨단 시각 언어 모델(VLM)의 최신 버전인 PaliGemma 2를 출시했습니다. 팔리젬마 2는 캡션 생성, 시각적 질문에 대한 답변, 영상 속 물체 감지 등 이미지와 텍스트가 결합된 작업을 처리하도록 설계되었습니다. 

다국어 캡션 및 객체 인식을 위한 강력한 도구였던 기존 PaliGemma를 기반으로 개발된 PaliGemma 2는 몇 가지 주요 개선 사항을 제공합니다. 여기에는 더 커진 모델 크기, 고해상도 이미지 지원, 복잡한 시각적 작업의 성능 향상 등이 포함됩니다. 이러한 업그레이드를 통해 다양한 용도로 더욱 유연하고 효과적으로 사용할 수 있습니다.

이 글에서는 팔리젬마 2의 작동 방식과 주요 기능, 그리고 팔리젬마 2가 빛을 발하는 애플리케이션에 대해 자세히 살펴보겠습니다. 시작해 보겠습니다!

젬마 2에서 팔리젬마 2까지

팔리젬마 2는 두 가지 핵심 기술인 SigLIP 비전 인코더와 젬마 2 언어 모델을 기반으로 구축되었습니다. SigLIP 인코더는 이미지나 동영상과 같은 시각적 데이터를 처리하여 모델이 분석할 수 있는 기능으로 분류합니다. 한편 Gemma 2는 텍스트를 처리하여 모델이 다국어 언어를 이해하고 생성할 수 있도록 지원합니다. 이 두 가지가 함께 시각적 정보와 텍스트 정보를 원활하게 해석하고 연결하도록 설계된 VLM을 구성합니다.

팔리젬마 2의 가장 큰 특징은 확장성과 다용도성입니다. 원래 버전과 달리 PaliGemma 2는 30억 개(3B), 100억 개(10B), 280억 개(28B) 매개변수의 세 가지 크기로 제공됩니다. 이러한 파라미터는 모델의 내부 설정과 같아서 데이터를 효과적으로 학습하고 처리하는 데 도움이 됩니다. 또한 다양한 이미지 해상도(예: 빠른 작업을 위한 224 x 224픽셀, 세부 분석을 위한 896 x 896)를 지원하므로 다양한 애플리케이션에 적용할 수 있습니다.

그림 1. 팔리젬마 개요 2.

젬마 2의 고급 언어 기능과 시그립의 이미지 처리 기능을 통합하면 팔리젬마 2는 훨씬 더 지능적으로 작동합니다. 다음과 같은 작업을 처리할 수 있습니다:

  • 이미지 또는 동영상 캡션: 이 모델은 비주얼에 대한 자세한 텍스트 설명을 생성할 수 있으므로 캡션을 자동으로 생성하는 데 유용합니다.
  • 시각적 질문 답변: 팔리젬마 2는 장면에서 사물, 사람 또는 행동을 식별하는 등 이미지를 기반으로 질문에 답할 수 있습니다.
  • 물체 인식: 사진에서 고양이, 테이블, 자동차를 구분하는 등 이미지 내의 물체를 식별하고 레이블을 지정합니다.

팔리젬마 2는 이미지와 텍스트를 개별적으로 처리하는 것을 넘어 의미 있는 방식으로 결합합니다. 예를 들어 "고양이가 테이블 위에 앉아 있다"는 것을 인식하는 것처럼 장면의 관계를 이해하거나, 유명한 랜드마크를 인식하는 것처럼 맥락을 추가하면서 사물을 식별할 수 있습니다. 

Google의 팔리젬마 2 VLM 모델 작동 방식

다음으로, 아래 이미지에 표시된 그래프를 사용한 예제를 통해 PaliGemma 2가 시각 및 텍스트 데이터를 처리하는 방법을 더 잘 이해할 수 있도록 하겠습니다. 이 그래프를 업로드하고 모델에 "이 그래프는 무엇을 나타내나요?"라고 질문한다고 가정해 보겠습니다.

그림 2. 팔리젬마 2의 기능 예시.

이 프로세스는 이미지를 분석하고 주요 특징을 추출하기 위해 PaliGemma 2의 SigLIP 비전 인코더로 시작됩니다. 그래프의 경우 여기에는 축, 데이터 포인트, 레이블과 같은 요소 식별이 포함됩니다. 이 인코더는 광범위한 패턴과 미세한 디테일을 모두 캡처하도록 훈련되었습니다. 또한 광학 문자 인식(OCR) 을 사용하여 이미지에 포함된 모든 텍스트를 감지하고 처리합니다. 이러한 시각적 특징은 모델이 처리할 수 있는 숫자 표현인 토큰으로 변환됩니다. 그런 다음 이러한 토큰은 텍스트 데이터와 원활하게 결합할 수 있도록 하는 기술인 선형 투영 레이어를 사용하여 조정됩니다.

동시에 Gemma 2 언어 모델은 함께 제공되는 쿼리를 처리하여 그 의미와 의도를 파악합니다. 쿼리의 텍스트는 토큰으로 변환되고, 이 토큰은 SigLIP의 시각적 토큰과 결합되어 시각 및 텍스트 데이터를 연결하는 통합 형식인 멀티모달 표현을 생성합니다. 

이 통합 표현을 사용하여 PaliGemma 2는 모델이 이미 처리한 문맥을 기반으로 한 번에 한 부분씩 답변의 일부를 예측하는 방법인 자동 회귀 디코딩을 통해 단계별로 답변을 생성합니다. 

팔리젬마 2의 주요 기능

이제 작동 원리를 이해했으니, 신뢰할 수 있는 시각 언어 모델인 PaliGemma 2의 주요 기능을 살펴보겠습니다:

  • 미세 조정 유연성: 특정 데이터 세트와 작업에 쉽게 적응하여 이미지 캡션, 공간 추론, 의료 영상과 같은 애플리케이션에서 뛰어난 성능을 발휘합니다.
  • 다양한 트레이닝 데이터: WebLI 및 OpenImages와 같은 데이터 세트에서 학습되어 강력한 객체 인식 능력과 다국어 출력 기능을 제공합니다.
  • OCR 통합: 이미지에서 텍스트를 추출하고 해석하는 광학 문자 인식 기능이 포함되어 있어 문서 분석 및 기타 텍스트 기반 작업에 이상적입니다.
  • 다국어 출력: 여러 언어로 캡션과 응답을 생성하여 글로벌 애플리케이션에 이상적입니다.
  • 도구와의 통합: Hugging Face Transformers, PyTorch, Keras와 같은 프레임워크와 호환되므로 쉽게 배포하고 실험할 수 있습니다.

팔리젬마 2와 팔리젬마 비교: 무엇이 개선되었나요?

PaliGemma의 첫 번째 버전의 아키텍처를 살펴보는 것은 PaliGemma 2의 향상된 기능을 확인하는 좋은 방법입니다. 가장 눈에 띄는 변화 중 하나는 기존 Gemma 언어 모델이 성능과 효율성 모두에서 상당한 개선을 가져온 Gemma 2로 대체되었다는 점입니다. 

9B 및 27B 매개변수 크기로 제공되는 Gemma 2는 배포 비용을 절감하면서 동급 최고의 정확도와 속도를 제공하도록 설계되었습니다. 강력한 GPU부터 보다 접근하기 쉬운 구성에 이르기까지 다양한 하드웨어 설정에서 추론 효율성에 최적화된 재설계된 아키텍처를 통해 이를 달성합니다.

그림 3. 팔리젬마 2의 첫 번째 버전 돌아보기.

그 결과, 팔리젬마 2는 매우 정확한 모델입니다. 팔리젬마 2의 10B 버전은 원래 모델의 34.3점보다 낮은 20.3점의 NES(Non-Entailment Sentence) 점수를 달성하여 출력 결과에서 사실 오류가 적습니다. 이러한 발전 덕분에 PaliGemma 2는 더욱 확장 가능하고 정확하며 상세한 캡션부터 시각적 질문에 대한 답변까지 다양한 애플리케이션에 적용할 수 있게 되었습니다.

팔리젬마 2의 애플리케이션: VLM 모델의 실제 사용 사례

팔리젬마 2는 시각과 언어 이해를 매끄럽게 결합하여 산업을 재정의할 수 있는 잠재력을 가지고 있습니다. 예를 들어 접근성과 관련하여 사물, 장면 및 공간 관계에 대한 상세한 설명을 생성하여 시각 장애인에게 중요한 도움을 제공할 수 있습니다. 이 기능은 사용자가 주변 환경을 더 잘 이해할 수 있도록 도와주며, 일상적인 작업에서 독립성을 높일 수 있도록 지원합니다. 

그림 4. 팔리젬마 2는 세상을 더 쉽게 접근할 수 있는 곳으로 만들 수 있습니다.

팔리젬마 2는 접근성 외에도 다음과 같은 다양한 산업 분야에서 영향력을 발휘하고 있습니다:

  • 전자 상거래: 이 모델은 이미지의 항목을 분석하고 설명하여 제품 분류를 향상시켜 재고 관리를 간소화하고 사용자의 검색 환경을 개선합니다.
  • 헬스케어: 엑스레이, MRI와 같은 의료 영상을 임상 기록과 함께 해석하여 의료 전문가를 지원함으로써 보다 정확하고 정보에 입각한 진단을 내릴 수 있도록 도와줍니다.
  • 교육: 팔리젬마 2는 캡션을 생성하고 이미지에 대한 맥락 정보를 제공함으로써 교육자가 설명적이고 접근하기 쉬운 학습 자료를 만들 수 있도록 도와줍니다.
  • 콘텐츠 제작: 이 모델은 멀티미디어 콘텐츠의 캡션과 시각적 설명을 생성하는 프로세스를 자동화하여 제작자의 시간을 절약해 줍니다.

직접 체험해 보세요: 팔리젬마 2

팔리젬마 2를 사용해 보시려면 Hugging Face의 대화형 데모로 시작하세요. 이미지 캡션 및 시각적 질문 답변과 같은 작업에서 기능을 살펴볼 수 있습니다. 이미지를 업로드하고 모델에게 질문을 하거나 장면에 대한 설명을 요청하기만 하면 됩니다. 

그림 5. 팔리젬마 2 데모.

더 자세히 알아보고 싶다면 직접 체험해 볼 수 있는 방법을 소개합니다:

  • 사전 훈련된 모델: Hugging Face 및 Kaggle과 같은 플랫폼에서 사전 학습된 모델과 코드에 액세스할 수 있습니다. 이러한 리소스에서는 모델 작업을 시작하는 데 필요한 모든 것을 제공합니다.
  • 노트북: 팔리젬마 2에 익숙해지는 데 도움이 되는 포괄적인 문서와 예제 노트북이 있습니다. 추론 예제로 시작하여 특정 작업을 위해 자체 데이터 세트에서 모델을 미세 조정하는 실험을 해볼 수 있습니다.
  • 통합: 팔리젬마 2는 Hugging Face Transformers, Keras, PyTorch, JAX, Gemma.cpp 등 널리 사용되는 프레임워크와 호환되므로 기존 워크플로에 손쉽게 통합할 수 있습니다.

Google의 팔리젬마 2의 장단점

팔리젬마 2를 시작하는 방법을 이해했으니 이제 이 모델을 사용할 때 염두에 두어야 할 주요 장점과 단점을 자세히 살펴 보겠습니다. 

팔리젬마 2가 비전 언어 모델로서 돋보이는 이유는 다음과 같습니다:

  • 효율성 향상: Gemma 2의 최적화된 아키텍처를 활용하는 PaliGemma 2는 배포 비용을 최소화하면서 고성능을 제공합니다.
  • 향상된 안전 기능: 팔리젬마 2에는 편향을 줄이기 위한 사전 훈련 데이터의 강력한 필터링과 안전 벤치마크에 대한 엄격한 평가 등 훈련 프로세스에서 상당한 안전 개선 사항이 포함되어 있습니다.
  • 소규모 구성을 위한 짧은 지연 시간: 3B 모델은 더 빠른 추론 시간을 제공하므로 이커머스 제품 추천이나 실시간 지원 시스템과 같이 속도가 중요한 사용 사례에 적합합니다.

한편, 팔리젬마 2에서 제한이 발생할 수 있는 몇 가지 영역은 다음과 같습니다:

  • 지연 시간: 대규모 모델은 강력하지만, 특히 실시간 대화형 AI 시스템과 같이 즉각적인 응답이 필요한 작업에 배포할 경우 지연 시간 문제에 직면할 수 있습니다.
  • 대규모 데이터 세트에 대한 의존성: 팔리젬마 2의 성능은 학습 데이터 세트의 품질 및 다양성과 밀접하게 연관되어 있어, 학습 데이터에 포함되지 않은 언어나 잘 알려지지 않은 도메인에서는 그 효과가 제한될 수 있습니다.
  • 높은 리소스 요구 사항: 최적화에도 불구하고 10B 및 28B 매개변수 버전은 상당한 연산 능력을 요구하기 때문에 리소스가 제한된 소규모 조직에서는 접근성이 떨어집니다.

주요 내용

팔리젬마 2는 시각 언어 모델링의 놀라운 발전으로 확장성, 미세 조정 유연성, 정확성이 향상되었습니다. 접근성 솔루션과 이커머스부터 의료 진단 및 교육에 이르기까지 다양한 애플리케이션에 유용한 도구로 활용될 수 있습니다. 

계산 요구 사항과 고품질 데이터에 대한 의존성 등의 한계가 있지만, 시각적 데이터와 텍스트 데이터를 통합하는 복잡한 작업을 처리하는 데 실용적인 선택이 될 수 있는 강점이 있습니다. 팔리젬마 2는 연구자와 개발자가 멀티모달 애플리케이션에서 AI의 잠재력을 탐구하고 확장할 수 있는 강력한 기반을 제공할 수 있습니다.

GitHub 리포지토리와 커뮤니티를 확인하여 AI 대화의 일부가 되어보세요. AI가 농업과 의료 분야에서 어떻게 발전하고 있는지 알아보세요! 🚀

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기