OTARo: Однократная настройка для всех форматов представления чисел в сторону создания устойчивых LLM на устройствах.
Краткое содержание
arXiv:2511.13147v1 Тип объявления: новый Аннотация: Методы тонкой настройки больших языковых моделей (LLM) не только повышают адаптируемость к различным последующим задачам, но и смягчают негативные эффекты квантования моделей. Несмотря на это, традиционное квантование страдает от структурного ограничения, которое снижает гибкость на этапах тонкой настройки и развертывания. Практические задачи на устройствах требуют разной точности квантования (т.е. разной битовой ширины); например, задачи понимания обычно демонстрируют более высокую устойчивость к пониженной точности по сравнению с задачами генерации. Традиционное квантование, обычно основанное на коэффициентах масштабирования, несовместимых между разными битовыми ширинами, не поддерживает переключение точности на устройстве при столкновении со сложными реальными сценариями. Чтобы преодолеть эту дилемму, мы предлагаем OTARo — новый метод, который позволяет LLM на устройствах гибко переключать точность квантования, сохраняя robustность производительности за счет однократной тонкой настройки. OTARo вводит
Полный текст статьи пока не загружен.