X
Ultralytics YOLOv8.2 릴리스Ultralytics YOLOv8.2 모바일 릴리스Ultralytics YOLOv8.2 릴리스 화살표
녹색 확인
링크가 클립보드에 복사됨

피렌체-2: Microsoft 의 최신 비전 언어 모델

향상된 객체 감지, 세분화 및 제로 샷 성능을 뛰어난 효율성으로 제공하는 Microsoft 의 시각 언어 모델인 Florence-2를 만나보세요.

2024년 6월, Microsoft 에서는 물체 감지, 분할, 이미지 캡션, 접지 등 다양한 작업을 처리하도록 설계된 멀티모달 시각 언어 모델 (VLM)인 Florence-2를 출시했습니다. Florence-2는 제로 샷 성능의 새로운 벤치마크를 설정하여 사전 특정 훈련 없이 작업을 수행할 수 있으며, 다른 최신 시각 언어 모델보다 모델 크기를 더 작게 만들었습니다.

플로렌스-2의 다목적성과 향상된 성능은 정확도를 높이고 광범위한 훈련의 필요성을 줄임으로써 다양한 산업 분야에 큰 영향을 미칠 수 있는 잠재력을 가지고 있습니다. 이 글에서는 Florence-2의 혁신적인 기능을 살펴보고, 다른 VLM과 성능을 비교하며, 잠재적인 적용 분야에 대해 논의합니다.

플로렌스2란 무엇인가요?

Florence-2는 단일 통합 프레임워크 내에서 다양한 작업을 처리할 수 있습니다. 이 모델의 인상적인 기능은 부분적으로 FLD-5B라는 방대한 학습 데이터 세트 덕분입니다. FLD-5B에는 1억 2,600만 개의 이미지에 54억 개의 주석이 포함되어 있습니다. 이 포괄적인 데이터 세트는 Florence-2가 다양한 비전 작업을 높은 정확도와 효율성으로 처리하는 데 필요한 기능을 갖추기 위해 특별히 제작되었습니다. 

다음은 Florence-2가 지원하는 작업에 대해 자세히 살펴보는 내용입니다:

  • 물체 감지: 이미지 내에서 높은 정밀도로 물체를 식별하고 위치를 찾을 수 있습니다.
  • 세분화: 이 작업은 이미지를 의미 있는 세그먼트로 나누어 분석과 해석을 용이하게 하는 작업입니다.
  • 이미지 캡션: Florence-2는 컨텍스트와 세부 정보를 제공하는 이미지에 대한 설명 캡션을 생성할 수 있습니다.
  • 시각적 접지: 모델은 캡션의 특정 문구 또는 단어를 이미지의 해당 영역과 연결할 수 있습니다.
  • 제로 샷 성능: 특별한 교육 없이도 작업을 수행할 수 있습니다.
그림 1. 플로렌스 2의 훈련 방법 이해.

이 모델은 텍스트 기반 작업과 지역 기반 작업을 모두 지원합니다. 이미지의 특정 영역과 관련된 작업을 위해 특수 위치 토큰이 모델의 어휘에 추가됩니다. 이러한 토큰은 모델이 물체 주변의 직사각형(상자 표현), 4면 도형(사각형 상자 표현), 다면 도형(다각형 표현) 등 다양한 모양을 이해하는 데 도움이 됩니다. 모델은 교차 엔트로피 손실이라는 방법을 사용하여 훈련되며, 예측을 정답과 비교하고 그에 따라 내부 매개변수를 조정하여 학습을 돕습니다.

FLD-5B 데이터 세트 만들기

FLD-5B 데이터 세트에는 텍스트 설명, 지역과 텍스트의 쌍, 텍스트, 구문, 지역의 조합 등 다양한 유형의 주석이 포함되어 있습니다. 데이터 수집과 주석을 포함하는 2단계 프로세스를 통해 만들어졌습니다. 이미지는 이미지넷-22k, Object 365, 오픈 이미지, 개념적 캡션, LAION과 같은 인기 있는 데이터 세트에서 제공되었습니다. FLD-5B 데이터 세트의 주석은 대부분 합성 주석으로, 수동으로 라벨을 붙이지 않고 자동으로 생성되었습니다. 

그림 2. FLD-5B 데이터 세트 생성.

처음에는 객체 감지나 세분화와 같은 특정 작업에 숙련된 전문 모델이 이러한 주석을 만들었습니다. 그런 다음, 필터링 및 개선 프로세스를 통해 주석이 상세하고 정확한지 확인했습니다. 노이즈를 제거한 후 데이터 세트는 반복적인 정제 과정을 거쳤으며, 여기서 플로렌스 2의 결과물을 사용하여 주석을 지속적으로 업데이트하고 개선했습니다. 

Florence-2의 모델 아키텍처 이해

Florence-2의 모델 아키텍처는 시퀀스 간 학습 방식을 따릅니다. 즉, 모델은 입력 시퀀스(예: 텍스트 프롬프트가 있는 이미지)를 처리하고 단계별 방식으로 출력 시퀀스(예: 설명 또는 레이블)를 생성합니다. 시퀀스 간 프레임워크에서 각 작업은 번역 문제로 취급되며, 모델은 입력 이미지와 작업별 프롬프트를 받아 그에 해당하는 출력을 생성합니다.

그림 3. 피렌체-2의 비전-언어 모델 아키텍처.

모델 아키텍처의 핵심은 이미지 인코더와 멀티 모달리티 인코더-디코더를 결합한 멀티 모달리티 인코더-디코더 트랜스포머입니다. DaViT(데이터 효율적 비전 트랜스포머)라고 하는 이미지 인코더는 입력 이미지를 공간(사물의 위치)과 의미(사물이 무엇인지) 정보를 모두 캡처하는 이미지의 압축 표현인 시각적 토큰 임베딩으로 변환하여 처리합니다. 그런 다음 이러한 시각적 토큰을 텍스트 임베딩(텍스트의 표현)과 결합하여 모델이 텍스트 데이터와 시각적 데이터를 원활하게 병합할 수 있도록 합니다.

플로렌스-2와 다른 VLM 비교

Florence-2는 인상적인 제로 샷 기능으로 인해 다른 시각 언어 모델과 차별화됩니다. 다양한 작업에 적응하기 위해 광범위한 미세 조정에 의존하는 PaliGemma와 같은 모델과 달리 Florence-2는 상자에서 꺼내자마자 잘 작동합니다. 또한, 피렌체-2는 더 많은 매개변수를 가지고 있지만 피렌체-2의 성능과 항상 일치하지는 않는 GPT-4V 및 플라밍고와 같은 대형 모델과도 경쟁할 수 있습니다. 예를 들어, 플로렌스-2는 코스모스-2보다 파라미터 수가 두 배 이상 많음에도 불구하고 제로샷 결과가 코스모스-2보다 우수합니다.

벤치마크 테스트에서 Florence-2는 COCO 캡션 및 참조 표현 이해와 같은 작업에서 놀라운 성능을 보였습니다. COCO 데이터 세트의 객체 감지 및 세분화 작업에서 PolyFormer 및 UNINEXT와 같은 모델보다 뛰어난 성능을 보였습니다. 성능과 리소스 효율성이 모두 중요한 실제 애플리케이션에 매우 경쟁력 있는 선택입니다.

피렌체-2의 애플리케이션

플로렌스-2는 엔터테인먼트, 접근성, 교육 등 다양한 산업 분야에서 사용할 수 있습니다. 이해를 돕기 위해 몇 가지 예를 살펴보겠습니다.

이미지 캡션의 응용

스트리밍 플랫폼에서 무엇을 볼지 결정할 때 영화 요약 정보를 읽으면 선택에 도움이 될 수 있습니다. 플랫폼에서 영화 포스터에 대한 자세한 설명도 제공한다면 어떨까요? Florence-2는 이미지에 대한 설명 텍스트를 생성하는 이미지 캡션을 통해 이를 실현할 수 있습니다. Florence-2는 영화 포스터에 대한 자세한 설명을 생성하여 시각 장애가 있는 사용자를 위한 스트리밍 플랫폼을 더욱 포용적으로 만들 수 있습니다. Florence-2는 캐릭터, 풍경, 텍스트 등 포스터의 시각적 요소를 분석하여 포스터의 콘텐츠와 분위기를 전달하는 상세한 설명을 생성할 수 있습니다. 아래 이미지는 Florence-2가 설명에 제공할 수 있는 세부 수준을 보여줍니다.

그림 4. Florence-2에서 생성된 이미지 캡션의 예입니다. 

다음은 이미지 캡션이 도움이 될 수 있는 다른 몇 가지 예입니다:

  • 전자상거래: 이미지 캡션은 제품 이미지에 대한 자세한 설명을 제공하여 고객이 제품의 특징과 세부 사항을 보다 명확하게 이해할 수 있도록 도와줍니다.
  • 여행 및 관광: 여행 가이드 및 앱에서 랜드마크와 명소에 대한 자세한 설명을 제공할 수 있습니다.
  • 교육: 이미지 캡션은 교육용 이미지와 도표에 레이블을 지정하고 설명하여 교육과 학습에 도움을 줄 수 있습니다.
  • 부동산: 잠재적 구매자에게 특징과 편의시설을 강조하는 부동산 이미지에 대한 자세한 설명을 제공할 수 있습니다.

요리하는 동안 시각적 접지 사용

Florence-2는 요리 경험을 풍부하게 하는 데에도 사용할 수 있습니다. 예를 들어, 온라인 요리책에서 Florence-2를 사용하여 복잡한 레시피 이미지의 일부를 시각적으로 구분하고 레이블을 지정할 수 있습니다. 시각적 근거는 이미지의 특정 부분을 해당 설명 텍스트에 연결함으로써 도움이 됩니다. 각 재료와 단계를 정확하게 라벨링하고 설명할 수 있으므로 가정 요리사가 레시피를 쉽게 따라하고 요리에서 각 재료의 역할을 이해할 수 있습니다.

그림 5. 플로렌스-2를 사용한 시각적 접지 예시. 

금융 문서를 위한 지역 기반 OCR

문서 내 특정 영역에서 텍스트를 추출하는 데 중점을 두는 영역 기반 처리 기능을 갖춘 OCR은 회계와 같은 분야에서 유용하게 사용할 수 있습니다. 재무 문서의 지정된 영역을 분석하여 거래 내역, 계좌 번호, 만기일과 같은 중요한 정보를 자동으로 추출할 수 있습니다. 수동 데이터 입력의 필요성을 줄임으로써 오류를 최소화하고 처리 시간을 단축할 수 있습니다. 금융 기관은 이를 통해 송장 처리, 영수증 조정, 수표 청산과 같은 업무를 간소화하여 거래 속도를 높이고 고객 서비스를 개선할 수 있습니다. 

그림 6. 피렌체-2를 사용하여 영역으로 OCR을 추출하는 예제. 

산업 애플리케이션의 지역 기반 세분화

이미지를 의미 있는 부분으로 나누어 집중 분석하고 세부적으로 검사하는 영역 기반 분할은 다양한 공정에서 정밀도와 효율성을 향상시키는 산업 애플리케이션을 활성화할 수 있습니다. 이 기술은 이미지 내의 특정 영역에 집중함으로써 구성 요소와 제품을 자세히 검사하고 분석할 수 있습니다. 품질 관리와 관련해서는 균열이나 정렬 불량과 같은 재료의 결함이나 불일치를 식별하여 최고 품질의 제품만 시장에 출시할 수 있도록 보장할 수 있습니다.

그림 7. 피렌체-2를 사용한 지역 기반 세분화 예시.

또한 로봇 팔을 특정 부품으로 안내하고 부품의 배치와 조립을 최적화하여 자동화된 조립 라인을 개선합니다. 마찬가지로 재고 관리에서도 상품의 상태와 위치를 추적하고 모니터링하여 물류 효율을 높이고 다운타임을 줄일 수 있습니다. 전반적으로 지역 기반 세분화는 정확성과 생산성을 향상시켜 산업 환경에서 비용 절감과 제품 품질 향상으로 이어집니다.

주요 내용

AI 모델이 고성능을 유지하면서도 가벼워지는 추세가 나타나기 시작했습니다. 플로렌스 2는 시각 언어 모델 측면에서 큰 진전을 이루었습니다. 인상적인 제로 샷 성능으로 물체 감지, 세그멘테이션, 이미지 캡션, 접지 등 다양한 작업을 처리할 수 있습니다. 피렌체-2는 크기는 작지만 효율적이고 다양한 기능을 갖추고 있어 다양한 산업 분야에서 매우 유용하게 사용할 수 있습니다. 플로렌스-2와 같은 모델은 더 많은 가능성을 열어주며 AI 혁신의 잠재력을 확장하고 있습니다.

GitHub 리포지토리를 방문하고 커뮤니티에 가입하여 AI에 대해 자세히 알아보세요. 솔루션 페이지에서 제조농업 분야의 AI 애플리케이션에 대해 알아보세요. 🚀

Facebook 로고트위터 로고LinkedIn 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기