Неопределенность обеспечивает стабильность: Квантованная смесь экспертов на основе любопытства

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.11743v1 Тип объявления: новый Аннотация: Развертывание глубоких нейронных сетей на устройствах с ограниченными ресурсами сталкивается с двумя ключевыми проблемами: сохранение точности при агрессивном квантовании и обеспечение предсказуемой латентности вывода. Мы представляем фреймворк на основе квантованной смеси экспертов, управляемой любопытством, который решает обе проблемы за счет маршрутизации на основе байесовской эпистемической неопределенности между гетерогенными экспертами (троичная сеть BitNet, BitLinear с 1-16 бит, пост-тренировочное квантование). Оценка на эталонах аудиоклассификации (ESC-50, Quinn, UrbanSound8K) показывает, что наше 4-битное квантование сохраняет 99.9% точности 16-битной версии (0.858 против 0.859 F1) при 4-кратном сжатии и экономии энергии в 41% по сравнению с 8-битным. Критически важно, что маршрутизация, управляемая любопытством, снижает дисперсию латентности MoE на 82% (p = 0.008, тест Левена) со стандартного отклонения 230 мс до 29 мс, что обеспечивает стабильный вывод для устройств с ограниченным зарядом батареи. Статистический анализ подтверждает, что 4-битное и 8-битное квантование достигают практической эквивалентности с полной точностью.

Полный текст статьи пока не загружен.

Читать оригинал статьи