OmniSparse: Обучение-осознанная детально-разреженная (Fine-Grained Sparse) система внимания для многомодальных больших языковых моделей, работающих с длинными видео
Краткое содержание
arXiv:2511.12201v1 Тип: новая статья Аннотация: Существующие методы разреженного внимания в основном нацелены на ускорение вывода путем отбора критически важных токенов в соответствии с предопределенными шаблонами разреженности. Однако они зачастую не способны преодолеть разрыв между обучением и выводом и не обладают возможностью тонкого отбора токенов по нескольким измерениям, таким как запросы, ключевые значения (KV) и головы, что приводит к неоптимальной производительности и ограниченному выигрышу в ускорении. В данной статье мы представляем OmniSparse, ориентированный на обучение framework разреженного внимания с тонкой гранулярностью для мультимодальных больших языковых моделей (MLLM), работающих с длинными видео, который функционирует как на этапе обучения, так и на этапе вывода с динамическим распределением бюджета токенов. В частности, OmniSparse содержит три адаптивных и взаимодополняющих механизма: (1) отбор запросов посредством лениво-активной классификации, сохраняющий активные запросы, которые охватывают широкое семантическое сходство, при отбрасывании большинства ленивых, фокусирующихся на ограниченном локальном контексте и демонстрирующих высокую функциональную избыточность; (2) отбор KV с динамическим распределением бюджета на уровне голов
Полный текст статьи пока не загружен.