Обеление данных улучшает обучение разреженного автоэнкодера
Краткое содержание
arXiv:2511.13981v1 Тип объявления: кросс Аннотация: Разреженные автокодировщики (Sparse AutoEncoders, SAEs) зарекомендовали себя как перспективный подход для обучения интерпретируемых признаков на основе активаций нейронных сетей. Однако оптимизационный ландшафт при обучении SAEs может быть сложным из-за корреляций в входных данных. Мы показываем, что применение отбеливания с помощью метода главных компонент к входным активациям — стандартного предобрабатывающего приема в классической разреженной кодировке — улучшает производительность SAEs по нескольким метрикам. С помощью теоретического анализа и моделирования мы демонстрируем, что отбеливание преобразует оптимизационный ландшафт, делая его более выпуклым и облегчая навигацию. Мы оцениваем как ReLU-, так и Top-K-SAE на различных архитектурах моделей, ширинах и режимах разреженности. Эмпирическая оценка на SAEBench, всеобъемлющем бенчмарке для разреженных автокодеров, показывает, что отбеливание последовательно повышает показатели интерпретируемости, включая точность разреженного зондирования и разделение признаков, несмотря на незначительное снижение качества реконструкции.
Полный текст статьи пока не загружен.