Галлюцинации (в LLM)
Узнайте, что вызывает галлюцинации в больших языковых моделях (LLM), и изучите эффективные стратегии для уменьшения неточностей в контенте, создаваемом ИИ.
В контексте больших языковых моделей (LLM) под галлюцинацией понимается явление, когда модель генерирует текст, который уверенно и правдоподобно звучит, но при этом является фактологически неверным, нелепым или не основанным на предоставленных исходных данных. Эти модели, предназначенные для создания сложных текстов, иногда могут выдумывать факты, источники или детали, представляя их так, как будто они правдивы. Это происходит потому, что основная задача LLM - предсказать следующее слово в последовательности, чтобы сформировать связные предложения, а не проверить правдивость информации, которую она генерирует. Понимание и смягчение галлюцинаций - главная задача в повышении надежности генеративного ИИ.
Почему магистранты галлюцинируют?
Галлюцинации не являются преднамеренным обманом, это побочный продукт того, как создаются и тренируются LLM. К основным причинам относятся:
- Несовершенство обучающих данных: Такие модели, как GPT-3 и GPT-4, обучаются на огромных объемах текстов из интернета, которые неизбежно содержат ошибки, устаревшую информацию и алгоритмическую предвзятость. Модель изучает эти закономерности на основе обучающих данных, не имея собственного понимания истины.
- Архитектурный дизайн: Базовая архитектура Transformer оптимизирована для сопоставления шаблонов и моделирования языка, а не для запоминания фактов или логических рассуждений. Это может привести к появлению того, что некоторые исследователи называют"стохастическим попугаем" - существа, которое может имитировать язык, не понимая его смысла.
- Двусмысленность умозаключений: Во время генерации, если модель не уверена в следующем лучшем маркере, она может "заполнить пробелы" правдоподобной, но сфабрикованной информацией. Регулировка параметров вывода, таких как температура, иногда может уменьшить это, но это остается основной проблемой. Технический обзор см. в этом обзоре галлюцинаций LLM с сайта arXiv.
Примеры галлюцинаций в реальном мире
- Юридические исследования: Юрист, использующий ИИ-помощника для изучения судебных дел, попросил его найти юридические прецеденты. Чатбот привел несколько полностью сфабрикованных судебных дел, включая названия дел и юридические анализы, которые были правдоподобными, но не существовали. Этот реальный инцидент продемонстрировал серьезные риски использования LLM в областях с высокими ставками без надежной проверки фактов.
- Рекомендации по продуктам: Пользователь спрашивает чатбота о "лучшем походном рюкзаке со встроенной солнечной батареей". LLM может уверенно порекомендовать конкретную модель, подробно описав ее характеристики, даже если такого товара или сочетания характеристик не существует. Модель комбинирует понятия из обучающих данных, чтобы создать правдоподобный, но вымышленный продукт.
Как уменьшить количество галлюцинаций
Исследователи и разработчики активно работают над несколькими стратегиями смягчения последствий:
- Retrieval-Augmented Generation (RAG): Эта техника дает LLM возможность получить информацию из внешней авторитетной базы знаний (например, векторной базы данных), прежде чем генерировать ответ. Благодаря тому, что модель опирается на проверяемые факты, RAG значительно сокращает количество выдумок. Подробнее о том , как работает RAG, можно узнать в IBM Research.
- Улучшенные методы подсказок: Такие методы, как подсказки в виде цепочки мыслей, побуждают модель к пошаговому разложению своих рассуждений, что может привести к более точным результатам. Оригинальная исследовательская работа, посвященная "цепочке мыслей", показывает ее эффективность.
- Обучение с подкреплением на основе человеческих отзывов (RLHF): Модели совершенствуются с помощью RLHF, когда люди оценивают различные ответы модели. Такая обратная связь обучает модель предпочитать правдивые и полезные ответы. Этот процесс подробно описан такими организациями, как OpenAI и Anthropic.
- Уровни проверки фактов и верификации: Реализация отдельного процесса для перекрестной проверки утверждений, сделанных LLM, по доверенным источникам, прежде чем представить результаты пользователю. Это добавляет уровень ответственной разработки ИИ.
- Высококачественные наборы данных и тонкая настройка: Постоянное повышение качества данных, используемых для обучения, и тонкая настройка на конкретных высококачественных наборах данных помогут привести базовую модель в соответствие с фактической точностью.
Галлюцинация по сравнению с другими ошибками искусственного интеллекта
- Предвзятость в ИИ: Предвзятость в ИИ относится к систематическим ошибкам, когда результаты модели несправедливо благоприятствуют определенным группам, обычно отражая предвзятость общества или базы данных. Галлюцинация - это фактическая неточность, не обязательно предвзятость. И то, и другое - серьезные проблемы в этике ИИ.
- Ошибки компьютерного зрения: Понятие галлюцинации в основном связано с обработкой естественного языка (NLP). В компьютерном зрении (КВ) ошибка обычно означает, что модель, подобная Ultralytics YOLO, допускает ошибку в обнаружении объекта (например, неправильно классифицирует кошку как собаку) или не обнаруживает объект, что относится к ее точности. Это ошибка восприятия, а не изобретение информации. Однако, поскольку мультимодальные модели, объединяющие зрение и язык, становятся все более распространенными, они также могут "галлюцинировать" неправильные описания изображений. Управление моделями обоих типов можно упростить с помощью таких платформ, как Ultralytics HUB.