Эффективное рассуждение для больших языковых моделей с помощью подавления рефлексии, управляемого уверенностью
Краткое содержание
arXiv:2508.05337v2 Announce Type: replace-cross Аннотация: Современные большие языковые модели для рассуждений (LRLM) используют длинные цепочки рассуждений со сложным поведением рефлексии, которое обычно сигнализируется определенными триггерными словами (например, «Подожди» и «Или»), чтобы повысить производительность. Однако такое поведение рефлексии может привести к проблеме избыточного анализа, когда генерируются избыточные шаги рассуждений, что неоправданно увеличивает использование токенов, повышает стоимость вывода и снижает практическую полезность. В данной статье мы предлагаем метод подавления рефлексии на основе уверенности (Certainty-Guided Reflection Suppression, CGRS) — новый подход, который смягчает проблему избыточного анализа в LRLM, сохраняя при этом точность рассуждений. CGRS работает за счет динамического подавления генерации моделью триггеров рефлексии, когда она демонстрирует высокую уверенность в своем текущем ответе, тем самым предотвращая избыточные циклы рефлексии без ущерба для качества выходных данных. Наш подход является модельно-независимым, не требует переобучения или изменений архитектуры и может быть интегрирован
Полный текст статьи пока не загружен.