LoRA ранга 1 кодируют интерпретируемые сигналы рассуждений

2025-11-11 05:00:00

Краткое содержание

arXiv:2511.06739v1 Тип объявления: новый Аннотация: Модели рассуждений используют вычислительные ресурсы во время вывода для существенного повышения производительности языковых моделей на сложных логических задачах и стали доминирующим подходом в передовых больших языковых моделях (LLM). Несмотря на широкое распространение, механизмы, лежащие в основе улучшенной производительности этих моделей рассуждения, изучены недостаточно хорошо. В данной работе мы показываем, что большинство новых возможностей моделей рассуждения могут быть вызваны небольшими изменениями ранга один базовых параметров модели, причем многие из этих изменений интерпретируемы. Конкретнее, мы используем адаптер ранг-1 LoRA для минимального изменения параметров модели Qwen-2.5-32B-Instruct, который восстанавливает от 73 до 90% производительности по сравнению с полной тонкой настройкой всех параметров. Мы обнаружили, что активации данного адаптера LoRA столь же интерпретируемы, как и нейроны полносвязных слоев (MLP), и активируются для специфичных поведений, связанных с рассуждением. Наконец, мы обучили разреженный автоэнкодер на полном состоянии активаций этого адаптера LoRA и выделили тонко детализированные...

Полный текст статьи пока не загружен.

Читать оригинал статьи