Halluzinationen sind ein Phänomen, bei dem ein Large Language Model (LLM) Texte erzeugt, die unsinnig, sachlich falsch oder ohne Bezug zum eingegebenen Kontext sind, obwohl sie selbstbewusst und kohärent erscheinen. Diese Ausgaben beruhen nicht auf den Trainingsdaten des Modells oder der externen Realität, sondern sind Artefakte der internen Prozesse des Modells, die versuchen, das nächste wahrscheinlichste Wort oder Token vorherzusagen. Das Verständnis von Halluzinationen ist entscheidend für die verantwortungsvolle Entwicklung und den Einsatz von Systemen der Künstlichen Intelligenz (KI), insbesondere von solchen, die für die Informationsbeschaffung, die Erstellung von Inhalten oder die Entscheidungsfindung auf Plattformen wie Chatbots oder virtuellen Assistenten eingesetzt werden.
Warum Halluzinationen auftreten
LLMs, die oft auf Architekturen wie dem Transformer (der im Artikel"Attention Is All You Need" vorgestellt wurde) basieren, sind im Grunde probabilistische Modelle. Sie lernen Muster, Grammatik und faktische Assoziationen aus großen Mengen von Textdaten während des Trainings mit Frameworks wie PyTorch oder TensorFlow. Es fehlt ihnen jedoch an echtem Verständnis, Bewusstsein oder der Fähigkeit, Informationen von sich aus zu überprüfen. Halluzinationen können durch verschiedene Faktoren entstehen:
- Beschränkungen der Trainingsdaten: Das Modell kann auf verrauschten, verzerrten oder faktisch falschen Daten trainiert worden sein, oder es fehlen ihm ausreichende Informationen zu einem bestimmten Thema. Es versucht, die Lücken auf der Grundlage gelernter Muster zu füllen, was zu Fälschungen führt.
- Modellarchitektur und Training: Die Art und Weise, wie Modelle wie GPT-4 Informationen verarbeiten und Sequenzen Wort für Wort erzeugen, kann sie auf statistisch plausible, aber faktisch falsche Pfade führen. Die Komplexität von Deep Learning-Modellen macht sie anfällig für unvorhersehbares Verhalten.
- Dekodierungsstrategie: Die Parameter, die bei der Texterstellung (Inferenz) verwendet werden, wie z. B. die "Temperatur", beeinflussen die Zufälligkeit. Höhere Temperaturen fördern die Kreativität, erhöhen aber das Risiko von Halluzinationen.
- Fehlende Grundlage: Ohne Mechanismen, die den generierten Text mit dem Wissen der realen Welt oder bestimmten Quelldokumenten in Verbindung bringen, kann das Modell in ungestützte Aussagen abdriften. Techniken wie das Grounding zielen darauf ab, dies zu beheben.
- Zweideutige Aufforderungen: Vage oder schlecht formulierte Prompts können dazu führen, dass das Modell Annahmen trifft oder weniger strenge Vorgaben macht, was die Wahrscheinlichkeit von Ungenauigkeiten erhöht. Effektives Prompt-Engineering ist entscheidend.
Beispiele aus der realen Welt und Auswirkungen
Halluzinationen können sich auf verschiedene Weise manifestieren und stellen ein erhebliches Risiko dar, z. B. die Verbreitung von Fehlinformationen, die Erstellung schädlicher Inhalte oder die Untergrabung des Vertrauens der Nutzer in KI-Systeme.
- Tatsachenfälschung in Chatbots: Ein Nutzer könnte einen Chatbot nach einer bestimmten wissenschaftlichen Entdeckung fragen, und der Chatbot könnte Details erfinden, die Entdeckung der falschen Person zuschreiben oder ein nicht existierendes Ereignis mit großer Sicherheit beschreiben.
- Erfundene Rechtszitate: In einem weithin berichteten Vorfall haben Anwälte ein KI-Tool für juristische Recherchen verwendet, das völlig erfundene Fallzitate generierte, die in Gerichtsdokumenten präsentiert wurden, was zu Sanktionen führte.
Die Auswirkungen gehen über einfache Fehler hinaus und stellen die Zuverlässigkeit von KI-Systemen in Frage, insbesondere wenn sie in Suchmaschinen(wie Google KI-Übersichten), virtuelle Assistenten und Tools zur Erstellung von Inhalten integriert werden. Die Bewältigung dieses Problems ist eine zentrale Herausforderung im Bereich KI-Ethik und -Sicherheit und erfordert robuste Validierungs- und Überwachungsstrategien.
Unterscheidung zwischen Halluzinationen und anderen Irrtümern
Es ist wichtig, Halluzinationen von anderen Arten von KI-Fehlern zu unterscheiden:
- Voreingenommenheit in der KI: Dies bezieht sich auf systematische Fehler oder verzerrte Ergebnisse, die Vorurteile in den Trainingsdaten widerspiegeln (z. B. Geschlechter- oder Rassenstereotypen). Halluzinationen sind in der Regel eher zufällige Erfindungen als konsistente, verzerrte Ergebnisse. Hier ist es wichtig, die Verzerrungen in den Daten zu verstehen.
- Überanpassung: Das ist der Fall, wenn ein Modell die Trainingsdaten zu gut lernt, einschließlich des Rauschens, und die Generalisierung auf neue, ungesehene Daten(Validierungsdaten) nicht gelingt. Die Überanpassung führt zwar zu einer schlechten Leistung, ist aber etwas anderes als die Generierung völlig neuer, falscher Informationen.
- Veraltete Informationen: Ein LLM kann falsche Informationen liefern, einfach weil seine Trainingsdaten nicht aktuell sind. Dabei handelt es sich um einen sachlichen Fehler, der auf der Wissensabgrenzung beruht, und nicht um eine Halluzination, bei der Informationen erfunden werden.
Minderungsstrategien
Forscher und Entwickler arbeiten aktiv daran, LLM-Halluzinationen zu reduzieren:
- Verbesserte Trainingsdaten: Qualitativ hochwertigere, vielfältigere und auf Fakten geprüfte Datensätze kuratieren. Die Verwendung qualitativ hochwertiger Benchmark-Datensätze ist hilfreich.
- Retrieval-Augmented Generation (RAG): LLMs mit der Fähigkeit ausstatten, Informationen aus externen, zuverlässigen Wissensdatenbanken(wie Vektordatenbanken) abzurufen und zu zitieren, bevor sie eine Antwort erzeugen.
- Feinabstimmung und RLHF: Verfeinerung der Basismodelle anhand bestimmter Aufgaben oder Datensätze und Anwendung von Techniken wie Reinforcement Learning from Human Feedback (RLHF), um das Modellverhalten mit den gewünschten Ergebnissen (z. B. Wahrhaftigkeit) abzustimmen.
- Besseres Prompting: Techniken wie die Gedankenkette ermutigen die Modelle, Schritt für Schritt zu denken, wodurch Fehler vermieden werden können.
- Überprüfung der Ergebnisse: Implementierung von Mechanismen zum Abgleich der generierten Aussagen mit bekannten Fakten oder mehreren Quellen.
- Anpassen der Inferenzparameter: Wenn du Einstellungen wie "Temperatur" senkst, werden die Ergebnisse gezielter und weniger zufällig, was das Risiko von Halluzinationen verringert.
Während sich LLMs auf Sprache konzentrieren, sind auf Computer Vision (CV) spezialisierte Modelle, wie Ultralytics YOLO für die Objekterkennung, arbeiten anders und stehen vor ganz anderen Herausforderungen, wie z. B. der Gewährleistung der Erkennungsgenauigkeit. Der Trend zu multimodalen Modellen, die Sprache und Sehen kombinieren(wie CLIP), bedeutet jedoch, dass das Verständnis von Themen wie Halluzinationen bereichsübergreifend relevant wird. Plattformen wie Ultralytics HUB unterstützen das Training und den Einsatz verschiedener KI-Modelle und erleichtern die Entwicklung über verschiedene Modalitäten hinweg.