Когда смещение притворяется истиной: Как ложные корреляции подрывают обнаружение иллюзий в больших языковых моделях

2025-11-11 05:00:00

Краткое содержание

arXiv:2511.07318v1 Тип объявления: кросс Аннотация: Несмотря на значительные достижения, большие языковые модели (LLM) продолжают демонстрировать иллюзии восприятия, порождая правдоподобные, но неверные ответы. В данной работе мы выделяем критически важную, однако ранее недостаточно изученную категорию иллюзий восприятия, вызванную ложными корреляциями — поверхностными, но статистически значимыми ассоциациями между признаками (например, фамилиями) и атрибутами (например, национальной принадлежностью), присутствующими в тренировочных данных. Мы показываем, что эти ложные корреляции вызывают иллюзии восприятия, уверенно генерируемые моделями, устойчивые к масштабированию моделей, способные обходить современные методы обнаружения и сохраняющиеся даже после тонкой настройки отказа от ошибок. С помощью систематически контролируемых синтетических экспериментов и эмпирической оценки современных открытых и проприетарных LLM (включая GPT-5) мы демонстрируем, что существующие методы выявления иллюзий восприятия, такие как фильтрация на основе уверенности и исследование внутренних состояний, принципиально терпят неудачу в присутствии ложных корреляций.

Полный текст статьи пока не загружен.

Читать оригинал статьи