Активационно-информированное объединение больших языковых моделей
Краткое содержание
arXiv:2502.02421v3 Тип объявления: замена-перекрёстная публикация Аннотация: Слияние моделей — метод, объединяющий параметры и вложения нескольких предварительно настроенных больших языковых моделей (LLM), представляет собой перспективный подход к повышению производительности модели на различных задачах при сохранении вычислительной эффективности. В данной статье предлагается техника слияния, ориентированная на активацию (Activation-Informed Merging, AIM), которая интегрирует информацию из пространства активации LLM в процесс объединения для повышения производительности и устойчивости. AIM разработана как гибкое дополняющее решение, применимое к любому существующему методу слияния. Она направлена на сохранение критически важных весов базовой модели, основываясь на принципах непрерывного обучения (CL) и сжатия моделей. Используя калибровочный набор данных, независимый от конкретной задачи, AIM избирательно выделяет ключевые веса во время процесса слияния. Мы экспериментально демонстрируем, что AIM значительно улучшает производительность объединённых моделей на множестве эталонных тестов. Наши результаты показывают, что учёт
Полный текст статьи пока не загружен.