За пределами избыточности: Разнообразный и специализированный разреженный автоэнкодер с несколькими экспертами
Краткое содержание
arXiv:2511.05745v1 Тип объявления: новый Аннотация: Разреженные автокодировщики (Sparse Autoencoders — SAEs) зарекомендовали себя как мощный инструмент интерпретации больших языковых моделей (Large Language Models — LLMs), разлагая активации токенов на комбинации понятных человеку признаков. Хотя SAEs предоставляют критически важные сведения для объяснения работы LLM, практическое внедрение сталкивается с фундаментальной проблемой: повышение интерпретируемости требует высокой размерности скрытых слоев SAEs для удовлетворения ограничений разреженности, что ведет к непомерным затратам на обучение и вывод модели. Современные подходы типа "смесь экспертов" (Mixture of Experts — MoE) пытаются решить эту проблему путем разделения SAEs на узконаправленные экспертные сети с управляемым активированием, снижая вычислительные затраты. В хорошо спроектированной архитектуре MoE каждый эксперт должен специализироваться на изучении отдельного набора признаков. Однако мы выявляем ключевое ограничение метода MoE-SAE: эксперты часто не достигают специализации, что означает, что они зачастую изучают перекрывающиеся или идентичные признаки. Для устранения этой проблемы предлагаем два ключевых нововведения:
Полный текст статьи пока не загружен.