Оптимизация разнообразия и качества через сотрудничество моделей с базовой выравнивающей моделью
Краткое содержание
arXiv:2511.05650v1 Тип объявления: кросс Аннотация: Выравнивание значительно повысило качество вывода больших языковых моделей (LLM), однако снизило разнообразие результатов, приводя к высокой схожести выходных данных между различными генерациями. Мы предлагаем подход совместного использования базовых выровненных моделей на уровне токенов во время выполнения — Base-Aligned Model Collaboration (BACo). Этот динамический фреймворк объединяет базовую LLM с её выровненным аналогом для оптимизации разнообразия и качества. Вдохновлённые предыдущей работой (Fei et al., 2025), мы применяем стратегии маршрутизации, определяющие на каждом этапе декодирования, от какой модели получать токены, исходя из неопределённости предсказания следующего токена и семантической роли прогнозируемых элементов содержания. Ранее предложенные методы повышения разнообразия, такие как переобучение, инженерия подсказок и многопроходное выборочное декодирование, улучшают разнообразие, но часто ухудшают качество либо требуют дорогостоящих вычислений или дополнительного пост-обучения. Напротив, BACo позволяет достичь высокого уровня как разнообразия, так и качества в рамках одного прохода, обеспечивая высокую управляемость процесса. Мы исследуем семейство стратегий маршрутизации, основанных на...
Полный текст статьи пока не загружен.