ジェネレーティブAIがどのようにテキスト、画像、音声などのオリジナルコンテンツを作成し、革新的なアプリケーションで業界を変革しているかをご覧ください。
生成的人工知能(AI)は、テキスト、画像、音声、コード、合成データなど、新しいコンテンツを生成できるシステムの構築に焦点を当てた人工知能(AI)のサブセットである。入力データに基づいて分類や予測を学習する判別型AIモデル(画像内のオブジェクトの識別など)とは異なり、生成型モデルはデータセット内の基本的なパターンや分布を学習し、学習データに似た新しいオリジナルの出力を生成する。最近の進歩、特にGPT(Generative Pre-trained Transformers)や拡散モデルのようなモデルによって、非常にリアルで複雑なコンテンツの作成が可能になりました。
生成AIモデルは通常、学習データの確率分布の表現を学習することで機能する。そして、この学習した分布からサンプリングして新しいデータ点を生成する。一般的なアーキテクチャには以下のものがある:
どちらもAIの一分野ではあるが、ジェネレーティブAIとコンピュータビジョン(CV)は根本的に目的が異なる。
YOLO Vision 2024で議論されたように、Generative AIモデルは、リアルタイム分析用に設計された効率的なCVモデル(以下のような)に比べて、かなり大規模(数十億のパラメータ)になることが多い。 Ultralytics YOLOv8のような、数百万パラメータから始まるモデル)に比べて、大幅に大きくなります。多くのCVモデルが標準的なハードウェアやエッジデバイスでの展開に最適化されているのに対し、ジェネレーティブAIは学習と推論にかなりの計算リソースを必要とする。
しかし、これらの分野はますます交わりつつある。ジェネレーティブAIは、特に稀なシナリオの検出やセグメンテーションモデルをトレーニングするための合成データを作成することで、CVを支援し、モデルのロバスト性とパフォーマンスを向上させる可能性がある。
ジェネレーティブAIは、さまざまな領域で数多くの応用例がある:
ジェネレーティブAIの力は、倫理的な課題ももたらす。誤情報や有害なコンテンツを生成する可能性、説得力のあるディープフェイクの作成、生成されたコンテンツの著作権や知的財産に関する問題、学習データから学習される固有のバイアスなどである。これらに対処するには、AIの倫理、透明性、強固な規制の枠組みを慎重に検討する必要がある。これらのテクノロジーを責任を持って開発し、展開することは極めて重要である。独自のAIモデルの管理とトレーニングには、Ultralytics HUBのようなプラットフォームをご検討ください。