Внутренние причинно-следственные механизмы надёжно предсказывают поведение языковой модели вне распределения данных
Краткое содержание
arXiv:2505.11770v2 Тип объявления: замена-перекрёстная публикация Аннотация: Исследования интерпретируемости сейчас предлагают разнообразные методы выявления абстрактных внутренних механизмов в нейронных сетях. Можно ли использовать такие техники для прогнозирования поведения моделей на примерах вне распределения? В данной работе мы даём положительный ответ на этот вопрос. Через разнообразный набор задач языкового моделирования — включая манипуляции символами, извлечение знаний и выполнение инструкций — мы показываем, что наиболее устойчивые признаки для предсказания корректности являются теми, которые играют особую каузальную роль в поведении модели. Конкретнее, мы предлагаем два метода, использующих каузальные механизмы для прогноза правильности выходных данных модели: контрфактическое моделирование (проверка реализации ключевых каузальных переменных) и оценка значений (использование значений этих переменных для прогнозирования). Оба достигают высокого показателя AUC-ROC как внутри, так и вне распределения и превосходят методы, основанные на признаках, игнорирующих каузальность, вне распределённых примеров.
Полный текст статьи пока не загружен.