Палитра Рассуждений: Модуляция Рассуждений через Латентную Контекстуализацию для Управляемого Исследования для (В)ЛМ. (Примечание: "V" in "(V)LMs" is likely referring to "Vision," so it could be translated as "Визуальные" or "Видовые", but without further context, I kept the abbreviation as is.)

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2512.17206v1 Тип объявления: новое Аннотация: Емкость для исследования влияет как на производительность во время вывода, так и на обучение с подкреплением (RL) для больших моделей языка и зрения, поскольку случайная выборка часто приводит к избыточным путям рассуждений с низкой разнообразностью на высоком уровне. В этой статье предлагается Reasoning Palette — новая рамка латентной модуляции, которая наделяет модель стохастической латентной переменной для стратегического контекстуализации, направляя ее внутреннее планирование перед генерацией токенов. Этот латентный контекст выводится из среднего пула вложения пары вопрос-ответ с помощью вариационного автокодировщика (VAE), где каждый выборочный латент может кодировать уникальный контекст рассуждений. В процессе вывода выбранный латент декодируется в обучаемые префиксы токенов и добавляется к входному запросу, модулируя внутренний путь рассуждений модели. Таким образом, модель выполняет выборку по стратегиям рассуждения перед генерацией вывода, что формирует стиль его представления.

Полный текст статьи пока не загружен.

Читать оригинал статьи