Галлюцинации ИИ: почему LLM выдумывают и как это исправить

Одна из главных проблем при развёртывании больших языковых моделей (LLM) — их склонность генерировать информацию, которая звучит авторитетно и правдоподобно, но фактически является неверной. Это явление, широко известное как галлюцинации ИИ, уже привело к реальному вреду: сфабрикованные юридические цитаты, представленные судам, выдуманные медицинские рекомендации и несуществующие научные ссылки.

Понимание причин возникновения галлюцинаций крайне важно для всех, кто разрабатывает, развёртывает или полагается на системы на базе LLM. Более того, существует растущий набор инженерных практик, позволяющих значительно сократить их частоту и влияние.

Что такое галлюцинации ИИ?

Галлюцинация ИИ происходит, когда языковая модель генерирует контент, который не основан на её обучающих данных, предоставленном контексте или фактической реальности, но преподносит его с той же уверенностью, что и точную информацию. Термин заимствован из психологии, где галлюцинации обозначают восприятие без внешних стимулов.

Галлюцинации проявляются по-разному:

Фактологические фабрикации: модель выдумывает факты, статистику, даты или события, которых никогда не было. Модель может уверенно заявить, что конкретное исследование было опубликовано в определённом журнале, хотя такого исследования не существует.
Смешение сущностей: модель путает атрибуты различных сущностей. Она может приписать достижения одного человека другому или смешать детали из разных событий.
Логическая непоследовательность: модель генерирует аргументы или объяснения, содержащие внутренние противоречия, когда один абзац противоречит другому в рамках одного ответа.
Фабрикация источников: при запросе ссылок модель генерирует реалистично выглядящие, но полностью вымышленные цитаты, включая правдоподобные имена авторов, названия журналов и DOI.

Почему LLM галлюцинируют?

Галлюцинация — это не баг, который можно исправить. Она возникает из фундаментальных аспектов работы языковых моделей.

Статистическое завершение паттернов

LLM обучаются предсказывать наиболее вероятный следующий токен, учитывая предшествующий контекст. Они учатся статистическим корреляциям между словами и фразами, а не фактам о мире. Когда модель генерирует текст на тему, где её обучающие данные скудны или противоречивы, она заполняет пробелы, производя последовательности, статистически правдоподобные, по сути, подбирая паттерны, а не проверяя факты.

Модель не имеет внутреннего представления об истине. Она не может отличить корректный факт от правдоподобной выдумки, потому что и то, и другое — лишь последовательности токенов с определёнными вероятностями.

Характеристики обучающих данных

Текстовые корпуса интернет-масштаба, используемые для обучения LLM, содержат ошибки, противоречия, устаревшую информацию и откровенные дезинформацию. Модель поглощает все эти паттерны без какого-либо механизма проверки точности. Когда несколько источников расходятся во мнениях, модель может выдать смешанный ответ, который точно не соответствует ни одному из них.

Кроме того, обучающие данные имеют временной срез. События после этой даты модели неизвестны, но она может генерировать ответы о них, экстраполируя из более ранних паттернов, создавая правдоподобные, но вымышленные описания событий, по которым у неё нет данных.

Softmax-бутылочное горлышко

На каждом шаге генерации модель выдает распределение вероятностей по всему своему словарю. Когда модель не уверена, вероятности распределяются между множеством токенов. Процесс сэмплирования всё равно должен выбрать один токен, что означает, что модель фиксируется на определённых деталях, даже когда её внутреннее состояние отражает реальную неопределённость. Нет механизма, позволяющего модели выражать калиброванную неуверенность на уровне токенов.

Exposure Bias и Teacher Forcing

Во время обучения моделям показывают корректные последовательности, и они учатся предсказывать следующий токен, имея идеальную историю. Во время инференса они генерируют на основе своих предыдущих выводов, которые могут содержать ошибки. Ранние ошибки накапливаются: одна галлюцинация в начале ответа может привести к каскаду, заставляя модель генерировать последующий текст, который соответствует галлюцинации, а не реальности.

Как выявлять галлюцинации

Выявление — первая линия обороны. Несколько подходов оказались эффективными:

Перекрёстная проверка: сравнивайте выводы модели с доверенными базами знаний, базами данных или API. Автоматизированные конвейеры фактчекинга могут отмечать утверждения, противоречащие проверенным источникам.
Проверка самосогласованности: генерируйте несколько ответов на один и тот же запрос и сравнивайте их. Галлюцинированные детали, как правило, варьируются между образцами, в то время как фактическое содержание остаётся стабильным.
Калибровка уверенности: анализируйте вероятности токенов модели. Низкоуверенные токены или последовательности с высокой энтропией часто коррелируют с галлюцинированным контентом, хотя эта связь не идеальна.
Проверка логического следования: используйте отдельную модель для проверки, следует ли сгенерированный вывод логически из предоставленных исходных документов или контекста.

Как сократить галлюцинации

Ни один метод не устраняет галлюцинации полностью, но следующие стратегии могут их существенно сократить.

Retrieval-Augmented Generation (RAG)

RAG предоставляет модели релевантные исходные документы во время запроса, основывая её ответы на конкретном тексте. Инструктируя модель использовать только информацию, присутствующую в извлечённом контексте, RAG ограничивает склонность модели заполнять пробелы выдумками. Исследования показывают, что RAG может снизить частоту галлюцинаций на 40-70% в зависимости от домена и качества реализации.

Улучшенные стратегии промптинга

Способ, которым вы инструктируете модель, имеет большое значение:

Явно инструктируйте модель отвечать «Я не знаю», когда ей не хватает информации.
Попросите модель сначала предоставить шаги рассуждения, а затем выводы, что уменьшает логические галлюцинации.
Запросите, чтобы модель различала то, что она знает с уверенностью, и то, в чём она не уверена.
Включите примеры желаемого поведения, включая примеры адекватного выражения неуверенности.

Constitutional AI и RLHF

Вмешательства на этапе обучения, такие как обучение с подкреплением на основе обратной связи от человека (RLHF) и методы Constitutional AI, могут научить модели быть более осторожными и честными. Модели, обученные этими методами, менее склонны делать уверенные утверждения, когда они не уверены, хотя это может сделать их менее полезными в некоторых сценариях в качестве компромисса.

Конвейеры валидации вывода

Продакшн-системы должны относиться к выводам LLM как к недоверенным до их проверки. Эффективная валидация включает:

Автоматизированную проверку фактов по структурированным базам данных.
Проверку цитирования для любых ссылочных источников.
Проверку согласованности с известными ограничениями или бизнес-правилами.
Человеческий обзор для критически важных выводов.

Ограничения структурированного вывода

Ограничение формата вывода модели, например, требование вывода в формате JSON, который должен соответствовать схеме, или ограничение ответов предопределёнными категориями, уменьшает пространство, в котором могут происходить галлюцинации. Модель, вынужденная выбирать из допустимых вариантов, не может выдумать несуществующие.

Компромисс между честностью и полезностью

Существует внутреннее напряжение между снижением галлюцинаций и поддержанием полезности. Модель, которая никогда не галлюцинировала бы, отказалась бы отвечать на многие вопросы, где у неё есть полезные, но не идеальные знания. Практическая цель — не нулевые галлюцинации, а скорее соответствующая калибровка: модель должна быть уверена, когда у неё есть сильная поддержка, и не уверена, когда её нет.

Эта проблема калибровки — активная область исследований. Модели постепенно улучшаются в различении того, что они знают, от того, чего они не знают, но идеальная калибровка остаётся нерешённой проблемой.

Последствия для развёртывания ИИ

Организации, развёртывающие LLM, должны проектировать системы, рассматривая галлюцинации как ожидаемый сценарий сбоя, а не исключение. Это означает создание слоёв верификации, предоставление пользователям прозрачности источников, избегание использования LLM в критически важных сценариях без человеческого надзора и постоянный мониторинг качества вывода в продакшене.

Модели, которые в конечном итоге завоюют доверие пользователей, — это не те, которые никогда не ошибаются, а те, которые прозрачны в отношении своих ограничений и предоставляют инструменты для проверки своих выводов. По мере взросления области снижение галлюцинаций будет оставаться одной из центральных задач в обеспечении надёжности ИИ-систем для широкого развёртывания.

Галлюцинации ИИ: почему LLM выдумывают и как это исправить

Key Takeaways

Что такое галлюцинации ИИ?