大規模言語モデル(LLM)は、人間のようなテキストを生成する驚くべき能力を持っているが、「幻覚」として知られる、事実と異なる、または無意味な出力を生成することがある。LLMにおける幻覚とは、モデルが実世界のデータや有効な情報を反映しないコンテンツを生成する状況を指す。幻覚を理解し管理することは、効果的なAIの導入に不可欠である。
確率的性質:LLMは確率に基づいてテキストを生成する。この本質的に不確実なプロセスは、時に「でっち上げ」に似た、想像力豊かだが正しくない出力をもたらすことがある。
複雑な質問:複雑であいまいな質問に直面したとき、LLMはギャップを埋めるために、もっともらしいが偽の情報を挿入したり作成したりするかもしれない。
幻覚は誤った生成結果を伴うが、AIにおけるバイアスとは異なり、偏見に満ちたデータセットによる系統的なエラーに関係する。バイアスがAIシステムに与える影響については、「AIにおけるバイアス」を参照のこと。
その課題にもかかわらず、GPT-3用語集で紹介されているGPT-3のようなLLMは、チャットボット、コンテンツ作成など、さまざまなアプリケーションに高度な機能を提供します。チャットボット・アプリケーションをご覧ください。
リトリーバル・アグメンテッド・ジェネレーション(RAG):外部データを活用することで、モデルは反応を洗練させ、幻覚を減らします。RAGテクニックをより深く掘り下げる。
微調整:特定のデータセットに合わせてモデルを調整することで、精度が向上します。詳しくは、微調整の方法をご覧ください。
人間による監視:人間によるイン・ザ・ループ・アプローチを取り入れることで、AIの出力を確実に検証することができる。
カスタマーサポート:Microsoft Copilotが使用しているようなAIチャットボットは、不正確な情報を提供することで幻覚を見ることがあり、継続的な訓練と改善が必要となる。
コンテンツの生成:LLMは十分な文脈やデータの正確性がないまま物語を構築しようとするため、AIが生成したニュース報道には存在しない事実が含まれる可能性がある。
幻覚は、特に誤った情報が重大な影響を及ぼす可能性のあるアプリケーションにおいて、倫理的な懸念を引き起こす。AIの倫理と説明責任を確保することは不可欠であり、このトピックは「AIの倫理」でさらに掘り下げられている。
AIが進化し続ける中、LLMの精度と信頼性を向上させる努力は、幻覚を最小限に抑えながら、業界全体のアプリケーションを強化する。高度な外部検証手法と、より堅牢なトレーニングデータセットの統合が、次世代のLLMを定義することになるだろう。
LLMアプリケーションと幻覚管理に関する継続的な進展と洞察については、Ultralytics ブログをご覧ください。また、直接AIエンゲージメントツールについては、Ultralytics アプリのダウンロードをご検討ください。