用語集

マルチモーダル学習

AIにおけるマルチモーダル学習のパワーを発見してください!より豊かで現実的な問題解決のために、モデルがどのように多様なデータタイプを統合しているかを探求してください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

マルチモーダル学習は、モダリティと呼ばれる複数のタイプのデータからの情報を理解し処理するモデルのトレーニングに焦点を当てた、人工知能内のエキサイティングな分野である。マルチモーダル・モデルは、画像やテキストといった単一のソースだけに依存するのではなく、画像、テキスト、音声、ビデオ、センサーの読み取り値など、さまざまなタイプのデータを統合して推論し、世界のより豊かで包括的な理解を得ることを学習する。このアプローチは、視覚、聴覚、触覚、言語を自然に組み合わせて周囲の環境を理解する人間の認知を反映している。

マルチモーダル学習を理解する

マルチモーダル学習の核心は、異なる形式のデータ間のギャップを埋めることにある。AIシステムを多様な入力に対して同時に学習させることで、これらのモデルは、各モダリティを単独で分析した場合には見逃される可能性のある複雑な関係や依存関係を捉えることを学習する。中心的な課題は、異なるソースからの情報を表現し融合する効果的な方法を見つけることであり、しばしばデータ融合技術と呼ばれる。この統合により、AIシステムはより洗練されたタスクを実行できるようになり、単一感覚による知覚を超えて、より全体的な理解へと向かうことができる。例えば、ビデオを分析するマルチモーダルモデルは、視覚的な動作、話し言葉による対話、背景音、さらにはこれらのモダリティの組み合わせによって伝えられる感情的なトーンまでも同時に解釈することができ、これはアフェクティブ・コンピューティングのような分野の焦点となっている。これは、コンピュータビジョン(CV)や自然言語処理(NLP)のみに焦点を当てた従来のアプローチとは対照的である。

関連性と応用

マルチモーダル学習の重要性は、情報が本質的に多面的である複雑な実世界の問題に取り組むことができる、より強固で汎用性の高いAIシステムを構築する能力に由来する。今日、大規模なファウンデーション・モデルを含む多くの高度なAIモデルは、マルチモーダル機能を活用している。

マルチモーダルラーニングの応用例をいくつか紹介しよう:

その他のアプリケーションとしては、カメラ、LiDAR、レーダーからのデータを組み合わせた自律走行や、ロボットが視覚、聴覚、触覚情報を統合して環境と相互作用するロボット工学におけるAIアプリケーションなどがある。

マルチモーダル学習は、多様なデータタイプの複雑さとスケールを扱うために、ディープラーニング(DL)の技術に大きく依存している。研究が進むにつれ、アライメントやフュージョンといったマルチモーダル学習における課題への対処が重要な鍵を握るようになる。現在、Ultralytics HUBのようなプラットフォームは、以下のようなモデルを使用して、主にコンピュータビジョンタスクに焦点を当てたワークフローを容易にします。 Ultralytics YOLOv8のようなモデルを使用したコンピュータビジョンタスクを中心としたワークフローを促進しています。 Ultralytics YOLOのエコシステムの進化と、より広範なAIの状況は、将来的にマルチモーダル機能の統合が進むことを示しています。Ultralytics ブログで、新しいモデル機能とアプリケーションの最新情報をご覧ください。この分野の概要については、ウィキペディアのマルチモーダル学習のページをご覧ください。

すべて読む