Само-внимание как распределенная проекция: единая интерпретация архитектуры трансформера
Краткое содержание
arXiv:2511.13780v1 Тип объявления: новый Аннотация: В данной статье представлена математическая интерпретация механизма само-внимания (self-attention) путем его связи с принципами распределенной семантики. Мы показываем, что механизм само-внимания возникает в результате проецирования корпусных статистических данных о совместной встречаемости на контекст последовательности. Исходными данными служат матрицы совместной встречаемости, лежащие в основе встраиваний GloVe; мы демонстрируем, как такое проецирование естественным образом учитывает влияние контекста, а механизм "запрос-ключи-значения" появляется как естественное асимметричное расширение для моделирования направленных отношений. Позиционные кодировки и многоголовое внимание затем следуют как структурированные уточнения того же принципа проецирования. Наш анализ показывает, что алгебраическая форма архитектуры Transformers вытекает из этих принципов проецирования, а не является произвольным проектным решением.
Полный текст статьи пока не загружен.