DRQA: Динамическое распределение квот на рассуждения для управления избыточностью размышлений в больших языковых моделях
Краткое содержание
arXiv:2508.17803v2 Тип объявления: замена Аннотация: Модели рассуждений на основе больших языковых моделей (RLLM), такие как OpenAI-O3 и DeepSeek-R1, недавно продемонстрировали выдающиеся возможности выполнения структурированных многошаговых рассуждений. Однако недавние исследования показывают, что RLLM часто страдают от чрезмерного анализа — формирования излишне длинных цепочек рассуждения даже для простых вопросов, что приводит к избыточному потреблению токенов и вычислительной неэффективности. Интересно отметить, что при обработке нескольких вопросов пакетным методом модели RLLM демонстрируют более ресурсоэффективное поведение путём динамического сжатия шагов рассуждения для более лёгких задач благодаря неявной конкуренции ресурсов. Вдохновлённые этим наблюдением, мы предлагаем метод динамического распределения квот на рассуждение (Dynamic Reasoning Quota Allocation, DRQA), который переносит преимущества конкуренции ресурсов с пакетной обработки на обработку отдельных запросов. Конкретнее, DRQA использует данные предпочтений, полученные в пакетном режиме, и обучение с подкреплением для тренировки модели распределять ресурсы рассуждения более эффективно.
Полный текст статьи пока не загружен.