Понимание структурных изменений в больших языковых моделях после обучения

2025-11-18 05:00:00

Краткое содержание

arXiv:2509.17866v2 Тип объявления: replace Аннотация: Пост-обучение фундаментально меняет поведение больших языковых моделей (БЯМ), однако его влияние на внутреннее параметрическое пространство остаётся малоизученным. В данной работе мы проводим систематический анализ методом сингулярного разложения (SVD) основных линейных слоёв в предобученных БЯМ, сосредоточившись на двух широко применяемых методах пост-обучения: инструктивном тонком настроении и дистилляции с длинной цепью рассуждений (Long-CoT). Наш анализ выявляет два последовательных и неожиданных структурных изменения: (1) почти равномерное геометрическое масштабирование сингулярных чисел по всем слоям, которое теоретически модулирует оценки внимания; и (2) к левым и правым сингулярным векторам каждой матрицы применяются высокосогласованные ортогональные преобразования. Нарушение этой ортогональной согласованности приводит к катастрофической деградации производительности. Основываясь на этих выводах, мы предлагаем простую, но эффективную концепцию, которая интерпретирует пост-обучение как перепараметризацию фиксированных подпространств в

Полный текст статьи пока не загружен.

Читать оригинал статьи