Палитра Рассуждений: Модуляция Рассуждений через Латентную Контекстуализацию для Управляемого Исследования для (В)ЛМ. (Примечание: "V" in "(V)LMs" is likely referring to "Vision," so it could be translated as "Визуальные" or "Видовые", but without further context, I kept the abbreviation as is.)
Краткое содержание
arXiv:2512.17206v1 Тип объявления: новое Аннотация: Емкость для исследования влияет как на производительность во время вывода, так и на обучение с подкреплением (RL) для больших моделей языка и зрения, поскольку случайная выборка часто приводит к избыточным путям рассуждений с низкой разнообразностью на высоком уровне. В этой статье предлагается Reasoning Palette — новая рамка латентной модуляции, которая наделяет модель стохастической латентной переменной для стратегического контекстуализации, направляя ее внутреннее планирование перед генерацией токенов. Этот латентный контекст выводится из среднего пула вложения пары вопрос-ответ с помощью вариационного автокодировщика (VAE), где каждый выборочный латент может кодировать уникальный контекст рассуждений. В процессе вывода выбранный латент декодируется в обучаемые префиксы токенов и добавляется к входному запросу, модулируя внутренний путь рассуждений модели. Таким образом, модель выполняет выборку по стратегиям рассуждения перед генерацией вывода, что формирует стиль его представления.
Полный текст статьи пока не загружен.