용어집

멀티모달 모델

멀티 모달 AI 모델이 텍스트, 이미지 등을 통합하여 실제 애플리케이션을 위한 강력하고 다양한 시스템을 만드는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

AI 및 머신러닝의 다중 모달 모델은 여러 유형의 입력 데이터 또는 모달리티에서 정보를 처리하고 이해하도록 설계된 모델 유형을 말합니다. 다중 모달 모델은 이미지나 텍스트와 같은 한 가지 유형의 데이터에만 의존하는 대신 다양한 형태의 데이터를 처리하고 통합하여 정보를 보다 포괄적으로 이해할 수 있습니다. 이러한 접근 방식은 종종 더 강력하고 다재다능한 AI 시스템으로 이어집니다.

정의

멀티 모달 모델은 두 개 이상의 서로 다른 데이터 양식에서 정보를 처리하고 연관시키도록 학습된 AI 모델입니다. 이러한 양식에는 텍스트, 이미지, 오디오, 비디오, 센서 데이터 등이 포함될 수 있습니다. 멀티 모달 모델은 이러한 다양한 유형의 데이터 간의 관계와 종속성을 학습함으로써 단일 모달에 국한된 모델보다 복잡한 데이터를 더 풍부하고 미묘하게 이해할 수 있습니다. 이러한 통합을 통해 모델은 각 모달의 강점을 활용하여 단일 모달 접근 방식에 내재된 한계를 극복할 수 있습니다.

관련성 및 응용 분야

실제 데이터는 본질적으로 다면적이기 때문에 다중 모드 모델의 관련성이 빠르게 증가하고 있습니다. 다중 모드 모델은 다양한 소스의 컨텍스트를 이해하는 것이 중요한 애플리케이션에서 매우 중요합니다. 다음은 몇 가지 예시입니다:

  • 비전 언어 모델(VLM): 플로렌스-2팔리젬마 2와 같은 모델은 컴퓨터 비전과 자연어 처리를 결합합니다. 이미지를 이해하고 자연어로 이미지에 대한 질문에 답하거나, 이미지 캡션을 생성하거나, 시각적 질문에 대한 답변과 같은 작업을 수행할 수 있습니다. 이 기술은 로봇이 시각 및 텍스트 입력을 통해 환경을 '보고' '이해'할 수 있게 함으로써 의료 이미지 분석부터 로봇 프로세스 자동화(RPA) 향상에 이르기까지 다양한 애플리케이션에 필수적입니다.
  • 자율 주행: 자율주행차는 멀티모달 모델에 크게 의존합니다. 이러한 모델은 카메라(이미지 및 비디오), LiDAR(깊이 정보), 레이더(거리 및 속도), GPS(위치 데이터)의 데이터를 통합합니다. 이러한 센서 데이터의 융합은 자율주행차와 같은 비전 AI 애플리케이션에서 안전한 주행과 의사 결정에 필수적인 환경을 보다 정확하고 안정적으로 인식할 수 있게 해줍니다.
  • 감정 분석: 감성 분석은 주로 텍스트 데이터에 대해 수행되지만, 오디오 및 시각적 단서를 통합하면 특히 사람의 감정을 이해하는 데 있어 정확도를 높일 수 있습니다. 예를 들어, 텍스트 리뷰와 함께 비디오의 표정을 분석하면 제품이나 서비스에 대한 고객의 감정을 보다 포괄적으로 이해할 수 있습니다.

주요 개념

멀티모달 모델을 이해하려면 몇 가지 관련 개념을 파악해야 합니다:

  • 데이터 융합: 여러 센서 또는 소스의 데이터를 결합하는 프로세스입니다. 멀티 모달 모델에서는 데이터 융합 기술을 사용하여 서로 다른 모달의 정보를 모델이 학습할 수 있는 통합된 표현으로 통합합니다.
  • 교차 모달 학습: 이는 모델이 한 모달리티에서 학습한 지식을 다른 모달리티로 이전할 수 있는 능력을 말합니다. 예를 들어 이미지와 텍스트 쌍에 대해 학습한 모델은 이전에 본 적이 없는 새로운 이미지에 대한 설명을 생성하여 교차 모달 이해를 보여줄 수 있습니다.
  • 파운데이션 모델: OpenAI의 GPT-4와 같은 기초 모델은 점점 더 멀티 모달화되고 있습니다. 이러한 강력한 모델은 방대한 양의 다양한 데이터로 학습되며 다양한 방식에 걸쳐 광범위한 작업에 적용할 수 있어 보다 일반적이고 유능한 인공 일반 지능(AGI)을 달성하는 데 있어 멀티모달 AI의 잠재력을 보여줍니다.

풍부한 멀티모달 데이터를 활용함으로써 AI 시스템은 더욱 지능적이고 다양한 기능을 갖추고 복잡한 현실 세계의 문제를 해결할 수 있는 능력을 갖추게 되었습니다.

모두 보기