Пример, Не ищи: Переосмысление выравнивания на этапе тестирования для языковых моделей
Краткое содержание
arXiv:2504.03790v2 Тип объявления: replace-cross Аннотация: Увеличение вычислений на этапе тестирования стало перспективным направлением для улучшения производительности языковых моделей, особенно в сценариях, где тонкая настройка модели невозможна или непрактична из-за ограничений вычислительных ресурсов или приватности весов модели. Однако существующие методы поиска на этапе тестирования с использованием модели вознаграждения (RM) часто ухудшаются в качестве при увеличении вычислений, из-за чрезмерной оптимизации несовершенных прокси вознаграждения. Мы представляем QAlign — новый подход к выравниванию на этапе тестирования. По мере увеличения вычислений на этапе тестирования, QAlign сходится к выборке из оптимального распределения выравнивания для каждого индивидуального запроса. Используя недавние достижения в методах Монте-Карло для генерации текста, наш метод позволяет получать более точно выровненные результаты без изменения базовой модели или даже требуя доступа к логитам. Мы демонстрируем эффективность QAlign на бенчмарках математического рассуждения (GSM8K и GSM-Symbolic), используя задачно-специфическую R.
Полный текст статьи пока не загружен.