← Вернуться к списку

KernelDNA: Динамическое совместное использование ядра через разделенные наивные адаптеры

Краткое содержание

arXiv:2503.23379v2 Тип объявления: replace-cross Аннотация: Динамическая свёртка повышает ёмкость модели за счёт адаптивного объединения нескольких ядер, однако сталкивается с фундаментальными компромиссами: предыдущие работы либо (1) несут значительные параметрические затраты, линейно масштабируя количество ядер, (2) жертвуют скоростью вывода из-за сложных взаимодействий между ядрами, либо (3) не могут совместно оптимизировать динамическое внимание и статические ядра. Мы наблюдаем, что предварительно обученные свёрточные нейронные сети (CNN) демонстрируют избыточность между слоями, аналогичную той, что наблюдается в больших языковых моделях (LLM). В частности, плотные свёрточные слои могут быть эффективно заменены производными «дочерними» слоями, сгенерированными из общего «родительского» свёрочного ядра через адаптер. Для решения этих ограничений и реализации механизма разделения весов мы предлагаем лёгкий модуль для свёрточных ядер под названием KernelDNA. Он разделяет адаптацию ядра на зависимую от входа динамическую маршрутизацию и предварительно обученную статическую модуляцию, обеспечивая как параметрическую эффектив

Полный текст статьи пока не загружен.