用語集

財団モデル

スケーラブルなアーキテクチャ、幅広い事前トレーニング、多様なアプリケーションへの適応性など、AIに革命をもたらす基盤モデルの仕組みをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ファウンデーションモデルは、人工知能(AI)における重要なパラダイムシフトであり、大規模かつ膨大で多様なデータセットでの学習を特徴としている。特定のタスクのために設計された従来の機械学習(ML)モデルとは異なり、基盤モデルは幅広いデータで事前に訓練されているため、タスク固有のデータが比較的少なくても、幅広いダウンストリームアプリケーションに適応させたり、微調整したりすることができる。このアプローチは、しばしば転移学習を活用し、AI開発を加速させ、強力な能力をより利用しやすくする。この言葉は、スタンフォード人間中心人工知能研究所(HAI)によって広められた。

財団モデルの中核的特徴

財団モデルは、規模、一般性、適応性という3つの主要な特徴によって定義される。

  1. 規模:テキスト、画像、コード、その他のデータタイプを含むウェブスケールのデータセットで学習される。通常、数十億のパラメータを持つため、膨大な計算リソース(GPU)を必要とする。
  2. 汎用性:広範な事前学習により、これらのモデルは学習データ内のパターン、構文、意味、文脈を幅広く理解するようになる。これにより、ゼロショット学習や 少数ショット学習によって、明示的に訓練されていないタスクでも優れた性能を発揮することができる。
  3. 適応力:モデルの核となる強みは、微調整によって特定のタスクに適応させる能力にある。このため、タスクに特化した小規模なデータセットで追加学習を行い、ゼロからモデルを学習するのに比べて、必要なデータと時間を大幅に削減することができる。Transformerのようなアーキテクチャは、逐次的なデータを処理し、長距離の依存関係を捉えることで知られており、特に自然言語処理(NLP)や、最近ではコンピュータビジョン(CV)でもよく使用されている。

応用と実例

ファンデーション・モデルの多用途性は、さまざまな分野でのイノベーションの原動力となっている。

  • 自然言語処理GPT-4や BERTのようなモデルは、テキスト生成、翻訳、要約、洗練されたチャットボットのパワーアップなどのタスクに優れています。たとえば、顧客サービス会社は、サポート・チケットでBERTのような事前にトレーニングされた言語モデルを微調整して、精度の高い社内質問応答システムを構築することができます。
  • コンピュータビジョンCLIP(ContrastiveLanguage-Image Pre-training)やSAM(Segment Anything Model)のようなビジョン基盤モデルは、画像分類物体検出画像セグメンテーションなどのタスクを処理する。例えば、農業技術企業は、ドローン画像上でSAM 微調整することで、従来の教師あり学習アプローチよりもはるかに少ないラベル付きデータで、異なる種類の作物を正確にセグメント化したり、病気に罹患している地域を特定したりすることができる。
  • マルチモーダル・アプリケーション:複数のデータ型(テキストや画像など)に対してモデルを学習させることで、テキスト記述から画像を生成したり(text-to-image)、画像に関する質問に答えたりといったタスクが可能になりつつある。

財団モデルと従来のモデルの比較

主な違いは、スコープと再利用性にある。伝統的なMLモデルは通常、調整されたデータセットを使って、単一の特定のタスクのためにトレーニングされる。新しいタスクが発生した場合、多くの場合、新しいモデルをゼロから構築し、トレーニングする必要がある。しかしファウンデーションモデルは、再利用可能なベースを提供する。その広範な事前学習は一般的な知識を取り込み、それを効率的に特化させることができる。

このパラダイムは、新たなタスクごとに大規模なデータ収集とアノテーションを行う必要性を減らし、モデル展開を高速化できる可能性があるなどの利点をもたらす。しかし、課題としては、事前学習に必要な膨大な計算コストとエネルギー、学習データに存在するバイアスを継承・増幅するリスク、潜在的な悪用や社会的影響に関する重大な倫理的配慮などが挙げられる。Ultralytics HUBのようなプラットフォームは、高度なAIモデルへのアクセス、トレーニング、デプロイのプロセスを合理化し、ユーザーがこれらの強力なテクノロジーを効果的に活用できるようにすることを目的としています。

すべて読む