Обучение языковых моделей объяснять собственные вычисления

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.08579v1 Тип объявления: кросс Аннотация: Могут ли языковые модели (LM) научиться достоверно описывать свои внутренние вычисления? Способны ли они лучше описывать себя, чем другие модели? Мы исследуем степень, в которой привилегированный доступ языковых моделей к своим внутренним механизмам может использоваться для разработки новых методов объяснения их поведения. Используя существующие методы интерпретируемости в качестве источника истины, мы дообучаем языковые модели генерировать описания на естественном языке (1) информации, закодированной признаками языковых моделей, (2) причинной структуры внутренних активаций языковых моделей и (3) влияния конкретных входных токенов на выходные данные языковых моделей. Когда обучение проводится всего лишь на десятках тысяч примеров объяснений, объясняющие модели демонстрируют нетривиальную обобщающую способность к новым запросам. Эта способность частично объясняется привилегированным доступом объясняющих моделей к собственным внутренним механизмам: использование одной модели для объяснения собственных вычислений работает лучше, чем использование другой модели для этой цели.

Полный текст статьи пока не загружен.

Читать оригинал статьи