用語集

幻覚（LLMの場合）

大規模言語モデル（LLM）における幻覚の原因を発見し、AIが生成したコンテンツの不正確さを軽減する効果的な戦略を探る。

ラージ・ランゲージ・モデル（LLM）の文脈では、幻覚とは、モデルが自信に満ち、もっともらしく聞こえるテキストを生成するが、事実に反していたり、無意味であったり、提供されたソースデータに根拠がなかったりする現象を指す。高度なテキスト生成のために設計されたこれらのモデルは、時には事実や出典、詳細を捏造し、あたかもそれが真実であるかのように提示することがある。これは、LLMの主な目的が、生成された情報の真実性を検証することではなく、首尾一貫した文章を形成するために、一連の流れの中で次の単語を予測することであるために起こる。幻覚を理解し緩和することは、生成AIをより信頼性の高いものにするための中心的な課題である。

LLMはなぜ幻覚を見るのか？

幻覚は意図的な欺瞞ではなく、LLMがどのように作られ、訓練されるかの副産物である。主な原因は以下の通り：

学習データの不完全性： GPT-3や GPT-4のようなモデルは、インターネット上の膨大な量のテキストから学習するが、そこには必然的に誤りや古い情報、アルゴリズムのバイアスが含まれる。GPT-3やGPT-4のようなモデルは、真実を理解することなく、学習データからこれらのパターンを学習します。
アーキテクチャ設計：基本的なTransformerのアーキテクチャは、事実の想起や論理的推論のためではなく、パターンマッチングや言語モデリングのために最適化されている。これは、一部の研究者が「確率的オウム返し」と呼ぶ、意味を理解せずに言語を模倣することのできる存在につながる可能性がある。
推論時間の曖昧さ：生成中、次善のトークンについてモデルが不確かな場合、もっともらしいが捏造された情報で「ギャップを埋める」可能性がある。温度などの推論パラメータを調整することで、これを軽減できる場合もあるが、依然として中核的な課題である。技術的な概要については、arXivのLLM幻覚に関するサーベイを参照のこと。

幻覚の実例

法律研究：ある弁護士が判例研究のためにAIアシスタントを使い、判例を探すよう依頼した。チャットボットは、判例名や法的分析など、もっともらしいが存在しない、完全に捏造された判例をいくつか引用した。この現実の事件は、確固としたファクト・チェックを行うことなく、リスクの高い分野にLLMを導入することの深刻なリスクを浮き彫りにした。
製品の推奨：ユーザーがチャットボットに「ソーラーパネル内蔵の最高のハイキング用バックパック」を尋ねる。LLMは、たとえそのような製品や機能の組み合わせが存在しなくても、自信を持って特定のモデルを推薦し、その特徴を詳細に説明するかもしれない。モデルは学習データから概念を組み合わせて、もっともらしいが架空の製品を作り出す。

幻覚を減らすには

研究者や開発者は、いくつかの緩和策に積極的に取り組んでいる：

検索補強型生成（RAG）：このテクニックは、LLMが答えを生成する前に、外部の権威ある知識ベース（ベクトルデータベースのようなもの）から情報を取得する能力を備えている。モデルを検証可能な事実に基づかせることで、RAGは捏造を大幅に減らします。RAGがどのように機能するかについては、IBM Researchから詳しく学ぶことができます。
より優れたプロンプティング技術：Chain-of-Thoughtプロンプトのような手法は、モデルが推論を段階的に分解することを促し、より正確なアウトプットを導くことができる。Chain-of-Thoughtに関するオリジナルの研究論文は、その有効性を示している。
人間のフィードバックからの強化学習（RLHF）：モデルはRLHFを使って改良され、人間のレビュアーがさまざまなモデルの回答を評価する。このフィードバックは、OpenAIや Anthropicのような組織によって詳述されているプロセスで、真実で役に立つ答えを好むようにモデルを訓練する。
ファクトチェックと検証のレイヤー：ユーザーにアウトプットを提示する前に、LLMの主張を信頼できる情報源と照合する別のプロセスを実装する。これにより、責任あるAI開発のレイヤーが追加される。
高品質のデータセットと微調整：トレーニングに使用するデータの質を継続的に改善し、特定の高品質なデータセットでファインチューニングを実施することで、基礎モデルを事実の精度に合わせることができる。

幻覚とその他のAIエラー

AIにおける偏見： AIにおける偏見とは、モデルの出力が特定のグループに不当に有利に働くような系統的なエラーを指し、通常は社会やデータセットのバイアスを反映している。幻覚は事実誤認であり、必ずしも偏見ではない。どちらもAI倫理における重大な懸念事項である。
コンピュータビジョンのエラー：幻覚の概念は、主に自然言語処理（NLP）に関連している。コンピュータ・ビジョン（CV）では、エラーとは通常、Ultralytics YOLOのようなモデルが物体検出でミスをする（例えば、ネコをイヌと誤分類する）、あるいは物体の検出に失敗することを意味し、その精度に関係する。これは知覚の誤りであり、情報の発明ではない。しかし、視覚と言語を融合したマルチモーダルモデルが一般的になるにつれ、画像の誤った記述を「幻覚」することもある。両方のタイプのモデルを管理することは、Ultralytics HUBのようなプラットフォームで効率化できる。

幻覚（LLMの場合）

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

Ultralytics YOLOでAIモデルを数秒でトレーニング

Ultralytics HUBでYOLOモデルを簡単にトレーニング

LLMはなぜ幻覚を見るのか？

幻覚の実例

幻覚を減らすには

幻覚とその他のAIエラー

このカテゴリの続きを読む

OpenAIのGPT-5を探る：スマートな統合システム

グーグルAlphaEarth、全球マッピングに観測データを利用

FastVLM：アップル、新しい高速ビジョン言語モデルを発表

Ultralyticsコミュニティに参加する