Ускоренное масштабирование во время тестирования с использованием спекулятивной выборки без модели
Краткое содержание
arXiv:2506.04708v2 Тип объявления: замена Аннотация: Языковые модели продемонстрировали выдающиеся возможности выполнения рассуждений посредством методов масштабирования во время тестирования, таких как выборка best-of-N и дерево поиска. Однако эти подходы часто требуют значительных вычислительных ресурсов, создавая критический компромисс между производительностью и эффективностью. Мы представляем STAND (Stochastic Adaptive N-gram Drafting) — новый метод спекулятивного декодирования без моделей, который использует присущую избыточность траекторий рассуждения для значительного ускорения работы без ущерба точности. Наш анализ показывает, что пути рассуждений часто повторно используют схожие паттерны рассуждений, позволяя эффективно предсказывать токены без отдельной модели черновика. Внедрение стохастического метода составления черновых вариантов и сохранение вероятностной информации через эффективный по памяти модуль N-грамм на основе логитов, объединённое с оптимизированной выборкой Gumbel-Top-K и построением дерева, основанным на данных, значительно улучшает
Полный текст статьи пока не загружен.