nnterp: Стандартизированный интерфейс для механистического интерпретирования трансформеров
Краткое содержание
arXiv:2511.14465v1 Тип объявления: кросс Аннотация: Исследования механистической интерпретируемости требуют надежных инструментов для анализа внутренних компонентов трансформеров в различных архитектурах. Современные подходы сталкиваются с фундаментальной дилеммой: кастомные реализации вроде TransformerLens обеспечивают согласованные интерфейсы, но требуют ручного кодирования адаптации для каждой архитектуры, что приводит к численному несоответствию с оригинальными моделями; прямой доступ через HuggingFace посредством NNsight сохраняет точное поведение моделей, однако не обеспечивает стандартизации между ними. Для преодоления этого разрыва мы разработали nnterp — легковесную обертку вокруг NNsight, предоставляющую унифицированный интерфейс для анализа трансформеров при сохранении оригинальных реализаций HuggingFace. Благодаря автоматическому переименованию модулей и комплексному тестированию на валидность, nnterp позволяет исследователям писать интервенционный код один раз и развертывать его на более чем 50 вариантах моделей из 16 семейств архитектур. Библиотека включает встроенные реализации распространенных методов интерпретации.
Полный текст статьи пока не загружен.