用語集

マルチモーダル学習

AIにおけるマルチモーダル学習のパワーを発見してください!より豊かで現実的な問題解決のために、モデルがどのように多様なデータタイプを統合しているかを探求してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

マルチモーダル学習は、人工知能(AI)および機械学習(ML)の一分野であり、モダリティと呼ばれる複数の異なるデータタイプからの情報を処理・統合できるモデルの設計とトレーニングに焦点を当てている。一般的なモダリティには、テキスト、画像(コンピュータビジョン(CV))、音声(音声認識)、ビデオ、センサーデータ(LiDARや温度測定値など)が含まれる。マルチモーダル学習の核となる目標は、異なるデータソースに存在する補完的な情報を活用することで、複雑なシナリオをより総合的に、人間のように理解できるAIシステムを構築することである。

定義とコアコンセプト

マルチモーダル学習では、異なるタイプのデータ間の関係や相関関係を理解するためのアルゴリズムを学習する。それぞれのモダリティを単独で分析するのではなく、情報を効果的に組み合わせたり、融合させたりする技術に焦点を当てて学習する。主な概念は以下の通り:

  • 情報融合:これは、異なるモダリティからの情報を組み合わせるために使用される方法を指す。フュージョンは、初期(生データの結合)、中間(各モダリティから抽出された特徴の結合)、後期(各モダリティでトレーニングされた別々のモデルの出力の結合)など、様々な段階で行われる。効果的な情報融合は、各データタイプの長所を活用するために極めて重要である。
  • クロスモーダル学習:これは、あるモダリティの情報を使って、別のモダリティの情報を推測したり検索したりできるような表現を学習することである(例:画像からテキストのキャプションを生成する)。
  • データアライメント:異なるモダリティ間で対応する情報が正しく一致するようにすること(例えば、オーディオトラック内の話し言葉とビデオ内の対応するビジュアルフレームの位置合わせ)。適切なデータアライメントは、多くの場合、効果的なフュージョンの前提条件となる。

マルチモーダル学習は、ディープラーニング(DL)の技術に大きく依存しており、トランスフォーマーや 畳み込みニューラルネットワーク(CNN)のようなアーキテクチャを使用し、多様な入力を処理するために、多くの場合、以下のようなフレームワークを使用している。 PyTorchPyTorch 公式サイト)や TensorFlowTensorFlow 公式サイト)のようなフレームワークを使用することが多い。

関連性と応用

マルチモーダル学習の重要性は、情報が本質的に多面的である複雑な実世界の問題に取り組むことができる、より強固で汎用性の高いAIシステムを構築する能力に由来する。今日、大規模なファウンデーション・モデルを含む多くの高度なAIモデルは、マルチモーダル機能を活用している。

マルチモーダル学習の具体的な応用例をいくつか紹介しよう:

  • 視覚言語モデル(VLM)視覚情報とテキスト情報を統合するモデル。画像に説明的なキャプションを自動生成したり(画像キャプション)、画像の内容に関する質問に答えたり(視覚的質問応答(VQA))、より自然な人間とコンピュータの対話を可能にするなどの用途がある。最近の例としては、GooglePaliGemma 2や MicrosoftFlorence-2のようなモデルがある。
  • センチメント分析の強化従来のセンチメント分析は、しばしばテキストのみに依存しています。マルチモーダルアプローチは、視覚的な手がかり(ビデオレビューにおける顔の表情のような)や聴覚的な情報(スピーチにおける声のトーンのような)を組み込むことによって、精度を大幅に向上させることができます。これにより、表現された感情や意見をより豊かに理解することができます。詳しくは、マルチモーダル感情分析の研究をご覧ください。

その他の重要な応用例としては、ウェイモのような企業がカメラ、LiDAR、レーダーからのデータを組み合わせた自律走行(自動運転車におけるAI)、画像データと患者記録を組み合わせた医療画像解析、ロボットが視覚、聴覚、触覚情報を統合して環境と相互作用するロボット工学におけるAI応用(ロボット工学)などがある。

主な特徴

マルチモーダルラーニングを関連用語と区別することは有益である:

  • マルチモーダルモデルマルチモーダル学習とは、複数のデータタイプを使用してAIをトレーニングするプロセスまたは研究分野である。マルチモーダルモデルとは、これらの技術を用いて設計・訓練されたAIシステムやアーキテクチャのことである。
  • コンピュータ・ビジョン(CV)CVは、もっぱら視覚データ(画像、ビデオ)の処理と理解に焦点を当てている。マルチモーダル学習は、視覚データをテキストや音声のような他のモダリティと統合することで、CVを超える。
  • 自然言語処理(NLP)NLPは人間の言語(テキスト、音声)の理解と生成を扱う。マルチモーダル学習は、言語データを画像やセンサーの読み取り値のような他のモダリティと統合する。
  • 基礎モデルこれらは、膨大な量のデータに対して事前に訓練された大規模なモデルであり、多くの場合、下流の様々なタスクに適応できるように設計されている。GPT-4のような最新の基盤モデルの多くは、マルチモーダル機能を組み込んでいるが、その概念は異なる。マルチモーダル学習は、これらの強力なモデルを構築する際にしばしば採用される手法である。

課題と今後の方向性

マルチモーダル学習は、異なるソースからのデータを効果的に整列させること、最適な融合戦略を開発すること、1つまたは複数のモダリティにおける欠損データやノイズデータを処理することなど、ユニークな課題を提示する。マルチモーダル学習におけるこれらの課題に対処することは、依然として活発な研究分野である。

この分野は急速に進化しており、より人間のように世界を認識し、推論するAIシステムに向かって境界を押し広げ、人工知能(AGI)の発展に貢献する可能性がある。現在、Ultralytics HUBのようなプラットフォームは、次のようなモデルを使用して、主にコンピュータビジョンタスクに焦点を当てたワークフローを容易にします。 Ultralytics YOLO(例えば Ultralytics YOLOv8)のような物体検出のためのマルチモーダル機能の統合が進んでいます。Ultralytics ブログでは、新しいモデル機能やアプリケーションの最新情報をお届けしています。この分野の概要については、ウィキペディアのマルチモーダル学習のページをご覧ください。

すべて読む