← Вернуться к списку

Выберите размер модели: любое сжатие больших языковых моделей без повторного вычисления

Краткое содержание

arXiv:2502.01717v2 Тип объявления: замена Аннотация: Внедрение фундаментальных моделей в условиях ограниченных ресурсов остается сложной задачей из-за их большого размера и высоких затрат на выполнение вычислений. Перспективный подход к преодолению этих ограничений — постобучающее сжатие модели, которое стремится найти баланс между уменьшением её размеров и ухудшением производительности. Данная работа представляет метод Any Compression via Iterative Pruning (ACIP) — новый алгоритмический подход, позволяющий определить компромисс между степенью сжатия и производительностью всего лишь за один прогон стохастического градиентного спуска. Для повышения эффективности параметров мы используем репараметризацию линейных слоев методом сингулярного разложения (SVD) и последовательно удаляем их сингулярные значения с помощью штрафной функции, способствующей разреженности. Важно отметить, что порядок удаления параметров используется для построения глобальной карты оценок, позволяющей сжать модель до любого целевого размера без повторных вычислений. Мы проверили эффективность метода ACIP на большом наборе открытых весовых больших языковых моделей (LLM) и прикладных задачах, продемонстрировав результаты мирового уровня по сравнению с существующими методами факторизации.

Полный текст статьи пока не загружен.