Мгновенный вывод (inference): Вывод почти линейного времени для моделей длинных свёрточных последовательностей и далее
Краткое содержание
arXiv:2410.12982v2 Тип объявления: замена-перекрёстная публикация Аннотация: Хотя трансформеры лежат в основе большинства последних достижений в моделях последовательностной генерации, их вычислительная стоимость остаётся квадратичной относительно длины последовательности. Для решения этой проблемы было предложено несколько субквадратичных архитектур. Некоторые из них, включая модели длинных свёрточных последовательностей (LCSM), такие как Hyena, решают эту проблему во время обучения, оставаясь квадратичными на этапе вывода. Мы предлагаем метод ускорения точного вывода моделей LCSM до квазилинейного времени $O(L\log^2L)$, выявляем ключевые свойства, делающие это возможным, и представляем общий подход, использующий эти свойства. Наш подход, вдохновлённый предыдущими работами по релаксированной полиномиальной интерполяции, основан на разбиении пространства, которое помогает уменьшить перемещение памяти и разделить вычисления между слоями. Это дополнительно позволяет почти полную параллелизацию по уровням позиционной части архитектуры. Эмпирически мы предоставляем доказательство концепции...
Полный текст статьи пока не загружен.