Экстремальное сжатие моделей с использованием структурной разреженности при низкой точности
Краткое содержание
arXiv:2511.08360v1 Тип объявления: кросс Аннотация: Глубокие нейронные сети (DNN) используются во многих приложениях, однако их большой размер и высокая вычислительная сложность затрудняют их запуск на устройствах с ограниченными ресурсами. Для решения этой проблемы широко применяются два метода: квантование весов, которое снижает точность всех весовых коэффициентов, и структурная разреженность, удаляющая неважные веса, оставляя важные веса полной точности. Хотя оба подхода эффективны сами по себе, они традиционно изучаются отдельно друг от друга из-за значительного негативного влияния на точность модели при совместном применении. В данной работе мы представляем SLOPE (Structured Sparsity at Low Precision — Структурная разреженность при низкой точности), унифицированную методику, позволяющую эффективно объединить структурную разреженность и низкобитное квантование взвешенных коэффициентов согласованным образом. Мы показываем, что простое объединение методов разреженности и квантования существенно ухудшает производительность вследствие совокупного воздействия обоих подходов. Чтобы решить эту проблему, мы предлагаем стратегию регуляризации на этапе обучения, минимизирующую...
Полный текст статьи пока не загружен.