용어집

멀티 모달 학습

AI에서 멀티모달 학습의 힘을 알아보세요! 모델이 다양한 데이터 유형을 통합하여 보다 풍부한 실제 문제 해결을 지원하는 방법을 살펴보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

다중 모달 학습은 모달리티라고 하는 여러 유형의 데이터에서 정보를 이해하고 처리하도록 모델을 훈련하는 데 초점을 맞춘 인공지능의 흥미로운 분야입니다. 멀티 모달 모델은 이미지나 텍스트와 같은 단일 소스에만 의존하는 대신 이미지, 텍스트, 오디오, 비디오, 센서 판독값 등 다양한 데이터 유형을 통합하고 추론하여 세상을 더 풍부하고 포괄적으로 이해하는 방법을 학습합니다. 이러한 접근 방식은 시각, 청각, 촉각, 언어를 자연스럽게 결합하여 주변 환경을 이해하는 인간의 인지와 유사합니다.

멀티모달 학습의 이해

멀티 모달 학습의 핵심은 서로 다른 형태의 데이터 간의 격차를 해소하는 것입니다. 이러한 모델은 다양한 입력에 대해 AI 시스템을 동시에 학습시킴으로써 각 양식을 개별적으로 분석할 때 놓칠 수 있는 복잡한 관계와 종속성을 포착하는 방법을 학습합니다. 핵심 과제는 데이터 융합 기법이라고도 하는 다양한 소스의 정보를 효과적으로 표현하고 융합하는 방법을 찾는 것입니다. 이러한 통합을 통해 AI 시스템은 더 정교한 작업을 수행할 수 있으며, 단일 감각 인식을 넘어 보다 전체적인 이해로 나아갈 수 있습니다. 예를 들어, 동영상을 분석하는 멀티 모달 모델은 시각적 동작, 음성 대화, 배경음, 심지어 이러한 결합된 모달리티를 통해 전달되는 감정적 어조까지 동시에 해석할 수 있으며, 이는 감성 컴퓨팅과 같은 분야의 초점입니다. 이는 컴퓨터 비전(CV) 이나 자연어 처리(NLP)에만 집중하는 기존의 접근 방식과는 대조적입니다.

관련성 및 응용 분야

멀티모달 학습의 중요성은 정보가 본질적으로 다면적인 복잡한 실제 문제를 해결할 수 있는 보다 강력하고 다재다능한 AI 시스템을 만들 수 있는 능력에서 비롯됩니다. 대규모 기초 모델을 포함한 오늘날의 많은 고급 AI 모델은 멀티모달 기능을 활용합니다.

다음은 다중 모달 학습이 어떻게 적용되는지 보여주는 몇 가지 예입니다:

다른 애플리케이션으로는 카메라, 라이다, 레이더의 데이터를 결합하는 자율 주행과 로봇이 시각, 청각, 촉각 정보를 통합하여 주변 환경과 상호작용하는 로봇 공학 분야의 AI 애플리케이션이 있습니다.

멀티모달 학습은 다양한 데이터 유형의 복잡성과 규모를 처리하기 위해 딥러닝(DL) 의 기술에 크게 의존합니다. 연구가 진행됨에 따라 정렬 및 융합과 같은 멀티모달 학습의 과제를 해결하는 것이 여전히 핵심입니다. 현재 다음과 같은 모델을 사용하여 주로 컴퓨터 비전 작업에 초점을 맞춘 워크플로우를 지원하는 Ultralytics HUB와 같은 플랫폼이 있습니다. Ultralytics YOLOv8 과 같은 모델을 사용하는 워크플로우를 주로 지원하지만, 물체 감지를 위한 Ultralytics YOLO 에코시스템과 더 광범위한 AI 환경은 향후 멀티 모달 기능의 통합이 증가할 것이라는 점을 시사합니다. 새로운 모델 기능 및 애플리케이션에 대한 업데이트는 Ultralytics 블로그에서 계속 확인하세요. 이 분야에 대한 더 광범위한 개요는 멀티모달 학습에 대한 위키백과 페이지에서 확인할 수 있습니다.

모두 보기