인공지능(AI)의 다중 모달 학습을 탐구하세요. 텍스트, 비전, 오디오를 통합하여 Ultralytics 및 YOLO 같은 강력한 모델을 구축하는 방법을 알아보세요. 지금 바로 더 알아보세요!
다중 모달 학습은 인공지능(AI) 분야의 정교한 접근법으로, 다양한 유형의 데이터 또는 "모달리티"로부터 정보를 처리하고 이해하며 상호 연관성을 학습하도록 알고리즘을 훈련시킵니다. 번역용 텍스트나 이미지 인식용픽셀처럼 단일 입력 유형에 특화된 기존 시스템과 달리, 다중 모달 학습은 시각 데이터, 음성 오디오, 텍스트 설명, 센서 판독값 등 다양한 감각 입력을 통합함으로써 인간 인지 방식을 모방합니다. 이러한 종합적 접근을 통해 기계 학습(ML) 모델은 세계에 대한 더 깊고 맥락을 인지하는 이해를 발전시켜 더욱 견고하고 다재다능한 예측을 가능하게 합니다.
다중 모달 학습의 핵심 과제는 서로 다른 데이터 유형을 비교 및 결합이 가능한 공유 수학적 공간으로 변환하는 것이다. 이 과정은 일반적으로 인코딩, 정렬, 융합이라는 세 가지 주요 단계를 포함한다.
다중 모달 학습은 오늘날 가장 인상적인 AI 혁신의 원동력으로, 서로 다른 데이터 사일로를 연결하여 복잡한 문제를 해결합니다.
표준 객체 탐지기는 사전 정의된 클래스에 의존하는 반면, YOLO 같은 다중 모달 접근법은 사용자가 개방형 어휘 텍스트 프롬프트를 활용해 detect 수 있게 합니다. 이는 Ultralytics 내에서 텍스트 개념과 시각적 특징을 연결하는 강력한 역량을 입증합니다.
다음 Python 스니펫은 사전 훈련된 YOLO 모델을 사용하여 사용자 정의 텍스트 입력을 기반으로 detect 방법을 보여줍니다.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
최신 AI의 환경을 탐색하려면 '다중 모드 학습'을 관련 개념과 구별하는 것이 도움이 됩니다:
멀티모달 학습의 궤적은 다음과 같은 시스템을 지향합니다. 인공 일반 지능(AGI) 특성을 지닌 시스템으로 향하고 있습니다. 이러한 모델은 시각적, 물리적 현실에 언어를 성공적으로 접목함으로써 통계적 상관관계를 넘어 통계적 상관관계를 넘어 진정한 추론으로 나아가고 있습니다. 다음과 같은 기관의 연구 MIT CSAIL 및 스탠포드 기초 모델 연구 센터와 같은 기관의 연구는 계속해서 기계가 복잡한 다중 감각 환경을 인식하고 상호 작용하는 방법의 경계를 계속해서 넓혀가고 있습니다.
Ultralytics 이러한 발전 사항들을 Ultralytics 통합하여 사용자가 데이터를 관리하고, 모델을 훈련시키며, YOLO26의 속도부터 오픈 어휘 검출의 다용도성에 이르기까지 사용 가능한 모든 방식의 스펙트럼을 활용하는 솔루션을 배포할 수 있도록 지원합니다.