Yolo 비전 선전
선전
지금 참여하기
용어집

다중 모달 모델

다중 모달 모델이 텍스트, 이미지, 오디오를 통합하는 방식을 살펴보세요. Ultralytics 같은 아키텍처에 대해 알아보고 Ultralytics 비전 AI를 배포하세요.

다중 모달 모델은 다양한 데이터 유형 또는 "모달리티"로부터의 정보를 동시에 처리, 해석 및 통합할 수 있는 고급 인공 지능(AI) 시스템 유형입니다. 기존의 단일 모달 시스템이 자연어 처리(NLP)와 같은 단일 영역에 특화되어 있는 반면, 텍스트나 컴퓨터 비전 (CV)과 같은 이미지에 특화된 반면, 다중 모달 모델은 시각적, 청각적, 언어적단서를 종합하여 인간의 인식을 모방하는 것을 목표로 합니다. 이러한 융합을 통해 모델은 세계에 대한 포괄적인 이해를 발전시킬 수 있습니다. 텍스트용, 컴퓨터 비전(CV)은 이미지용 등)에 특화되는 반면, 다중 모달 모델은 시각적, 청각적, 언어적 단서를 종합하여 인간 지각을 모방하는 것을 목표로 합니다. 이러한 융합을 통해 모델은 세계에 대한 포괄적인 이해를 발전시켜 시각적 장면과 음성 설명 사이의 복잡한 상관관계를 도출할 수 있게 됩니다. 이러한 능력은 인공 일반 지능(AGI) 달성을 위한 기초 단계로 간주됩니다.

핵심 메커니즘 및 아키텍처

다중 모달 모델의 효과는 다양한 데이터 유형을 공유된 의미 공간으로 매핑하는 능력에 달려 있습니다. 이 과정은 일반적으로 임베딩 생성으로 시작되며, 임베딩은 입력 데이터의 핵심 의미를 포착하는 수치적 표현입니다. 자막이 있는 동영상과 같은 쌍을 이루는 예시들의 방대한 데이터셋으로 훈련함으로써, 모델은 "고양이" 이미지의 벡터 표현을 "고양이"라는 단어의 텍스트 임베딩과 일치시키는 법을 학습합니다.

이 통합을 가능하게 하는 몇 가지 핵심 아키텍처 개념은 다음과 같습니다:

  • 트랜스포머 아키텍처: 다중 모달 시스템의 상당수는 트랜스포머를 활용하며, 이는 어텐션 메커니즘을 통해 다양한 입력 부분의 중요도를 동적으로 가중치 부여합니다. 이를 통해 모델은 텍스트 프롬프트 내 관련 단어에 대응하는 특정 이미지 영역에 집중할 수 있으며, 이 개념은 선구적인 연구 논문 "Attention Is All You Need"에서 상세히 설명되었습니다.
  • 데이터 융합: 이는 서로 다른 출처의 정보를 결합하는 전략을 의미합니다. 센서 융합은 원시 데이터를 병합하는 초기 단계에서 발생하거나 별도의 하위 모델들의 결정을 결합하는 후기 단계에서 발생할 수 있습니다. PyTorch 과 같은 현대적 프레임워크는 이러한 복잡한 파이프라인 구축에 필요한 유연성을 제공합니다.
  • 대조 학습: OpenAI의 CLIP과 같은 모델이 사용하는 기법으로, 벡터 공간 내에서 일치하는 텍스트-이미지 쌍 간의 거리를 최소화하고 일치하지 않는 쌍 간의 거리를 최대화하도록 시스템을 훈련시킵니다.

실제 애플리케이션

다중 모달 모델은 단일 모달 시스템으로는 이전에 달성할 수 없었던 능력을 가능하게 했습니다.

  • 시각적 질문 답변(VQA): 이 시스템은 사용자가 이미지에 대해 자연어 질문을 할 수 있게 합니다. 예를 들어 시각 장애인 사용자가 식료품 저장실 사진을 업로드하고 "상단 선반에 수프 캔이 있나요?"라고 질문할 수 있습니다. 모델은 물체 탐지 기술을 활용해 물건을 식별하고 자연어 처리(NLP)를 통해 질문을 이해하여 유용한 답변을 제공합니다.
  • 자율주행 차량: 자율주행 차량은 실시간 다중 모드 에이전트 역할을 수행합니다. 카메라의 시각적 정보, 라이다의 깊이 정보, 레이더의 속도 데이터를 결합합니다. 이러한 중복성은 한 센서가 기상 조건으로 인해 차단되더라도 다른 센서들이 도로 안전을 유지할 수 있도록 보장합니다.
  • 개방형 어휘 detect 탐지: Ultralytics YOLO 같은 모델은 사용자가 고정된 클래스 목록 대신 임의의 텍스트 프롬프트를 사용하여 detect 수 있게 합니다. 이는 언어적 명령과 시각적 인식 사이의 간극을 메웁니다.

예시: 개방형 어휘 탐지

다음 예는 ultralytics 개방형 어휘 감지를 수행하는 라이브러리로, 모델이 텍스트 프롬프트를 해석하여 이미지 내 객체를 식별합니다:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

관련 용어와의 차이점

AI 용어집에서 "다중 모달 모델"을 관련 개념과 구분하는 것이 유용합니다:

  • 다중 모달 학습: 이는 이러한 시스템을 훈련하는 데 사용되는 과정기계 학습(ML) 기법을 의미합니다. 다중 모달 모델은 해당 학습 과정의 결과물 또는 소프트웨어 제품입니다.
  • 대규모 언어 모델(LLM): 기존 LLM은 텍스트만 처리합니다. 비전-언어 모델(VLM)로 진화하는 사례가 늘고 있지만, 표준 LLM은 단일 모달(unimodal)입니다.
  • 파운데이션 모델: 이는 다양한 다운스트림 작업에 적용 가능한 대규모 모델을 포괄하는 광범위한 범주입니다. 다중 모달 모델이 종종 파운데이션 모델이지만, 모든 파운데이션 모델이 다중 모달을 처리하는 것은 아닙니다.

멀티모달 AI의 미래

이 분야는 오디오, 비디오, 텍스트의 연속적인 스트림을 실시간으로 처리할 수 있는 시스템으로 빠르게 진화하고 있습니다. Google 같은 기관의 연구는 기계 지각의 한계를 계속해서 확장하고 있습니다. Ultralytics( Ultralytics)는 YOLO26과 같은 고성능 비전 백본으로 이 생태계를 지원합니다. 2026년 출시된 YOLO26은 인스턴스 분할과 같은 작업에서 탁월한 속도와 정확도를 제공하며, 대규모 다중 모달 파이프라인 내에서 효율적인 시각적 구성 요소 역할을 합니다. 개발자는 통합된 Ultralytics 통해 이러한 복잡한 워크플로의 데이터 관리, 훈련 및 배포를 수행할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기