Yolo 비전 선전
선전
지금 참여하기
용어집

멀티모달 학습

인공지능(AI)의 다중 모달 학습을 탐구하세요. 텍스트, 비전, 오디오를 통합하여 Ultralytics 및 YOLO 같은 강력한 모델을 구축하는 방법을 알아보세요. 지금 바로 더 알아보세요!

다중 모달 학습은 인공지능(AI) 분야의 정교한 접근법으로, 다양한 유형의 데이터 또는 "모달리티"로부터 정보를 처리하고 이해하며 상호 연관성을 학습하도록 알고리즘을 훈련시킵니다. 번역용 텍스트나 이미지 인식용픽셀처럼 단일 입력 유형에 특화된 기존 시스템과 달리, 다중 모달 학습은 시각 데이터, 음성 오디오, 텍스트 설명, 센서 판독값 등 다양한 감각 입력을 통합함으로써 인간 인지 방식을 모방합니다. 이러한 종합적 접근을 통해 기계 학습(ML) 모델은 세계에 대한 더 깊고 맥락을 인지하는 이해를 발전시켜 더욱 견고하고 다재다능한 예측을 가능하게 합니다.

멀티 모달 학습 작동 방식

다중 모달 학습의 핵심 과제는 서로 다른 데이터 유형을 비교 및 결합이 가능한 공유 수학적 공간으로 변환하는 것이다. 이 과정은 일반적으로 인코딩, 정렬, 융합이라는 세 가지 주요 단계를 포함한다.

  1. 특징 추출: 특화된 신경망은 각 모달리티를 독립적으로 처리합니다. 예를 들어, 컨볼루션 신경망(CNN)이나 비전 트랜스포머(ViT) 는 이미지에서 특징을 추출하는 반면, 순환 신경망(RNN) 이나 트랜스포머는 텍스트를 처리합니다.
  2. 임베딩 정렬: 모델은 이러한 다양한 특징들을 공유된 고차원 벡터로 매핑하는 법을 학습합니다. 이 공유 공간에서 "고양이"라는 단어의 벡터와 고양이 이미지의 벡터는 서로 가까워집니다. OpenAI의 CLIP과 같은 논문으로 유행하게 된 대조적 학습( contrastive learning) 같은 기법이 여기서 핵심적입니다.
  3. 데이터 융합: 마지막으로 정보는 작업 수행을 위해 통합됩니다. 융합은 초기 단계(원시 데이터 결합), 후기 단계(최종 예측 결합) 또는 각 모달리티의 중요도를 동적으로 가중치 부여하는 어텐션 메커니즘을 활용한 중간 단계의 하이브리드 방법을 통해 이루어질 수 있습니다.

실제 애플리케이션

다중 모달 학습은 오늘날 가장 인상적인 AI 혁신의 원동력으로, 서로 다른 데이터 사일로를 연결하여 복잡한 문제를 해결합니다.

  • 시각적 질문 답변(VQA): 이 응용 분야에서는 시스템이 이미지를 분석하고 "신호등은 무슨 색인가요?"와 같은 자연어 질문에 답변해야 합니다. 이를 위해 모델은 텍스트의 의미를 이해하고 컴퓨터 비전을 활용하여 해당 시각적 요소를 공간적으로 찾아내야 합니다.
  • 자율주행 차량: 자율주행 차량은 안전하게 주행하기 위해 라이다 포인트 클라우드, 카메라 영상, 레이더에서 수집된 데이터를 결합하는 센서 융합 기술에 크게 의존합니다. 이러한 다중 모드 입력 방식은 한 센서가 고장 나더라도(예: 태양 빛에 눈이 부셔 카메라가 작동하지 않는 경우) 다른 센서들이 도로 안전을 유지할 수 있도록 보장합니다.
  • 의료 진단: 의료 분야 인공지능은 의료 영상 분석 (MRI 또는 X-레이 등)과 비정형 텍스트 형태의 환자 병력 및 유전적 데이터를 동시에 분석하는 다중 모달 학습을 활용합니다. 이러한 포괄적 접근은 의사들이 더 정확한 진단을 내리는 데 도움을 주며, 이는 Nature Digital Medicine 저널에서 자주 논의되는 주제입니다.
  • 생성형 AI: 텍스트 프롬프트로부터 이미지를 생성하는 도구들, 예를 들어 Stable Diffusion은 전적으로 모델이 언어적 묘사와 시각적 질감 간의 관계를 이해하는 능력에 의존한다.

Ultralytics 통한 멀티 모달 객체 감지

표준 객체 탐지기는 사전 정의된 클래스에 의존하는 반면, YOLO 같은 다중 모달 접근법은 사용자가 개방형 어휘 텍스트 프롬프트를 활용해 detect 수 있게 합니다. 이는 Ultralytics 내에서 텍스트 개념과 시각적 특징을 연결하는 강력한 역량을 입증합니다.

다음 Python 스니펫은 사전 훈련된 YOLO 모델을 사용하여 사용자 정의 텍스트 입력을 기반으로 detect 방법을 보여줍니다.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

주요 용어 차별화

최신 AI의 환경을 탐색하려면 '다중 모드 학습'을 관련 개념과 구별하는 것이 도움이 됩니다:

  • 다중 모달 모델: "다중 모달 학습"은 방법론 및 연구 분야를 의미합니다. "다중 모달 모델"( GPT-4나 Google 제미니와 같은)은 해당 훈련 과정을 통해 생성된 구체적인 산출물 또는 소프트웨어 제품을 가리킵니다.
  • 단일 모달 AI: 전통적 컴퓨터 비전은 일반적으로 단일 모달로, 시각적 데이터에만 집중합니다. Ultralytics 같은 모델은 물체 탐지를 위한 최첨단 CV 도구이지만, 대규모 다중 모달 파이프라인의 일부가 아닌 한 일반적으로 시각적 입력만으로 작동합니다.
  • 대규모 언어 모델(LLM): 기존의 LLM은 텍스트에 대해서만 학습된 단일 모드입니다. 하지만 업계는 이미지와 텍스트를 기본적으로 처리할 수 있는 '대형 멀티모달 모델(LMM)'로 전환하고 있습니다. 모델(LMM)로 전환하고 있으며, 이러한 추세는 다음과 같은 프레임워크에 의해 지원됩니다. PyTorchTensorFlow.

향후 전망

멀티모달 학습의 궤적은 다음과 같은 시스템을 지향합니다. 인공 일반 지능(AGI) 특성을 지닌 시스템으로 향하고 있습니다. 이러한 모델은 시각적, 물리적 현실에 언어를 성공적으로 접목함으로써 통계적 상관관계를 넘어 통계적 상관관계를 넘어 진정한 추론으로 나아가고 있습니다. 다음과 같은 기관의 연구 MIT CSAIL스탠포드 기초 모델 연구 센터와 같은 기관의 연구는 계속해서 기계가 복잡한 다중 감각 환경을 인식하고 상호 작용하는 방법의 경계를 계속해서 넓혀가고 있습니다.

Ultralytics 이러한 발전 사항들을 Ultralytics 통합하여 사용자가 데이터를 관리하고, 모델을 훈련시키며, YOLO26의 속도부터 오픈 어휘 검출의 다용도성에 이르기까지 사용 가능한 모든 방식의 스펙트럼을 활용하는 솔루션을 배포할 수 있도록 지원합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기