다중 모달 모델이 텍스트, 이미지, 오디오를 통합하는 방식을 살펴보세요. Ultralytics 같은 아키텍처에 대해 알아보고 Ultralytics 비전 AI를 배포하세요.
다중 모달 모델은 다양한 데이터 유형 또는 "모달리티"로부터의 정보를 동시에 처리, 해석 및 통합할 수 있는 고급 인공 지능(AI) 시스템 유형입니다. 기존의 단일 모달 시스템이 자연어 처리(NLP)와 같은 단일 영역에 특화되어 있는 반면, 텍스트나 컴퓨터 비전 (CV)과 같은 이미지에 특화된 반면, 다중 모달 모델은 시각적, 청각적, 언어적단서를 종합하여 인간의 인식을 모방하는 것을 목표로 합니다. 이러한 융합을 통해 모델은 세계에 대한 포괄적인 이해를 발전시킬 수 있습니다. 텍스트용, 컴퓨터 비전(CV)은 이미지용 등)에 특화되는 반면, 다중 모달 모델은 시각적, 청각적, 언어적 단서를 종합하여 인간 지각을 모방하는 것을 목표로 합니다. 이러한 융합을 통해 모델은 세계에 대한 포괄적인 이해를 발전시켜 시각적 장면과 음성 설명 사이의 복잡한 상관관계를 도출할 수 있게 됩니다. 이러한 능력은 인공 일반 지능(AGI) 달성을 위한 기초 단계로 간주됩니다.
다중 모달 모델의 효과는 다양한 데이터 유형을 공유된 의미 공간으로 매핑하는 능력에 달려 있습니다. 이 과정은 일반적으로 임베딩 생성으로 시작되며, 임베딩은 입력 데이터의 핵심 의미를 포착하는 수치적 표현입니다. 자막이 있는 동영상과 같은 쌍을 이루는 예시들의 방대한 데이터셋으로 훈련함으로써, 모델은 "고양이" 이미지의 벡터 표현을 "고양이"라는 단어의 텍스트 임베딩과 일치시키는 법을 학습합니다.
이 통합을 가능하게 하는 몇 가지 핵심 아키텍처 개념은 다음과 같습니다:
다중 모달 모델은 단일 모달 시스템으로는 이전에 달성할 수 없었던 능력을 가능하게 했습니다.
다음 예는 ultralytics 개방형 어휘 감지를 수행하는 라이브러리로,
모델이 텍스트 프롬프트를 해석하여 이미지 내 객체를 식별합니다:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
AI 용어집에서 "다중 모달 모델"을 관련 개념과 구분하는 것이 유용합니다:
이 분야는 오디오, 비디오, 텍스트의 연속적인 스트림을 실시간으로 처리할 수 있는 시스템으로 빠르게 진화하고 있습니다. Google 같은 기관의 연구는 기계 지각의 한계를 계속해서 확장하고 있습니다. Ultralytics( Ultralytics)는 YOLO26과 같은 고성능 비전 백본으로 이 생태계를 지원합니다. 2026년 출시된 YOLO26은 인스턴스 분할과 같은 작업에서 탁월한 속도와 정확도를 제공하며, 대규모 다중 모달 파이프라인 내에서 효율적인 시각적 구성 요소 역할을 합니다. 개발자는 통합된 Ultralytics 통해 이러한 복잡한 워크플로의 데이터 관리, 훈련 및 배포를 수행할 수 있습니다.