Оптимизация рассуждений в режиме реального времени посредством оптимизации политики относительно бюджета
Краткое содержание
arXiv:2505.13438v3 Тип объявления: replace-cross Аннотация: Масштабирование вычислений на этапе тестирования критично для повышения способности больших языковых моделей (LLM) к рассуждению. Существующие подходы обычно используют обучение с подкреплением (RL), чтобы максимизировать проверяемую награду, полученную в конце цепочек рассуждений. Однако такие методы оптимизируют только конечную производительность при большом и фиксированном бюджете токенов, что затрудняет эффективность как в обучении, так и в развертывании. В этой работе мы представляем новую рамку, AnytimeReasoner, для оптимизации производительности рассуждений в любое время, которая направлена на улучшение токен-эффективности и гибкости рассуждений при различных ограничениях бюджета токенов. Для достижения этого мы обрезаем полный процесс мышления, чтобы он соответствовал отобранным бюджетам токенов из предварительного распределения, заставляя модель суммировать оптимальный ответ для каждого обрезанного мыслительного процесса для проверки. Это вводит проверяемые плотные награды в процесс рассуждений, что способствует более эффективной верификации и оценке.
Полный текст статьи пока не загружен.