用語集

マルチモーダル学習

AIにおけるマルチモーダル学習のパワーを発見してください！より豊かで現実的な問題解決のために、モデルがどのように多様なデータタイプを統合しているかを探求してください。

マルチモーダル学習は、人工知能（AI）および機械学習（ML）の一分野であり、モダリティと呼ばれる複数の異なるデータタイプからの情報を処理・統合できるモデルの設計とトレーニングに焦点を当てている。一般的なモダリティには、テキスト、画像（コンピュータビジョン（CV））、音声（音声認識）、ビデオ、センサーデータ（LiDARや温度測定値など）が含まれる。マルチモーダル学習の核となる目標は、異なるデータソースに存在する補完的な情報を活用することで、複雑なシナリオをより総合的に、人間のように理解できるAIシステムを構築することである。

定義とコアコンセプト

マルチモーダル学習では、異なるタイプのデータ間の関係や相関関係を理解するためのアルゴリズムを学習する。それぞれのモダリティを単独で分析するのではなく、情報を効果的に組み合わせたり、融合させたりする技術に焦点を当てて学習する。主な概念は以下の通り：

情報融合：これは、異なるモダリティからの情報を組み合わせるために使用される方法を指す。フュージョンは、初期（生データの結合）、中間（各モダリティから抽出された特徴の結合）、後期（各モダリティでトレーニングされた別々のモデルの出力の結合）など、様々な段階で行われる。効果的な情報融合は、各データタイプの長所を活用するために極めて重要である。
クロスモーダル学習：これは、あるモダリティの情報を使って、別のモダリティの情報を推測したり検索したりできるような表現を学習することである（例：画像からテキストのキャプションを生成する）。
データアライメント：異なるモダリティ間で対応する情報が正しく一致するようにすること（例えば、オーディオトラック内の話し言葉とビデオ内の対応するビジュアルフレームの位置合わせ）。適切なデータアライメントは、多くの場合、効果的なフュージョンの前提条件となる。

マルチモーダル学習は、ディープラーニング（DL）の技術に大きく依存しており、トランスフォーマーや畳み込みニューラルネットワーク（CNN）のようなアーキテクチャを使用し、多様な入力を処理するために、多くの場合、以下のようなフレームワークを使用している。 PyTorch PyTorch 公式サイト）や TensorFlow TensorFlow 公式サイト）のようなフレームワークを使用することが多い。

主な特徴

マルチモーダルラーニングを関連用語と区別することは有益である：

マルチモーダルモデルマルチモーダル学習とは、複数のデータタイプを使用してAIをトレーニングするプロセスまたは研究分野である。マルチモーダルモデルとは、これらの技術を用いて設計・訓練されたAIシステムやアーキテクチャのことである。
コンピュータ・ビジョン（CV）：CVは、もっぱら視覚データ（画像、ビデオ）の処理と理解に焦点を当てている。マルチモーダル学習は、視覚データをテキストや音声のような他のモダリティと統合することで、CVを超える。
自然言語処理（NLP）：NLPは人間の言語（テキスト、音声）の理解と生成を扱う。マルチモーダル学習は、言語データを画像やセンサーの読み取り値のような他のモダリティと統合する。
基礎モデル：これらは、膨大な量のデータに対して事前に訓練された大規模なモデルであり、多くの場合、下流の様々なタスクに適応できるように設計されている。GPT-4のような最新の基盤モデルの多くは、マルチモーダル機能を組み込んでいるが、その概念は異なる。マルチモーダル学習は、これらの強力なモデルを構築する際にしばしば採用される手法である。

課題と今後の方向性

マルチモーダル学習は、異なるソースからのデータを効果的に整列させること、最適な融合戦略を開発すること、1つまたは複数のモダリティにおける欠損データやノイズデータを処理することなど、ユニークな課題を提示する。マルチモーダル学習におけるこれらの課題に対処することは、依然として活発な研究分野である。

この分野は急速に進化しており、より人間のように世界を認識し、推論するAIシステムに向かって境界を押し広げ、人工知能（AGI）の発展に貢献する可能性がある。現在、Ultralytics HUBのようなプラットフォームは、次のようなモデルを使用して、主にコンピュータビジョンタスクに焦点を当てたワークフローを容易にします。 Ultralytics YOLO(例えば Ultralytics YOLOv8)のような物体検出のためのマルチモーダル機能の統合が進んでいます。Ultralytics ブログでは、新しいモデル機能やアプリケーションの最新情報をお届けしています。この分野の概要については、ウィキペディアのマルチモーダル学習のページをご覧ください。

マルチモーダル学習

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

定義とコアコンセプト

関連性と応用

主な特徴

課題と今後の方向性

ブログをもっと読む

Ultralytics コミュニティに参加する

マルチモーダル学習

Ultralytics HUB でを使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

定義とコアコンセプト

関連性と応用

主な特徴

課題と今後の方向性

ブログをもっと読む

Ultralytics コミュニティに参加する

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。