От исследования до эксплуатации: двухэтапный подход энтропийной RLVR для шумоустойчивого обучения мультиязыковой языковой модели (MLLM)

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.07738v1 Тип объявления: новый Аннотация: Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) для мультимодальных больших языковых моделей (MLLM) сильно зависит от высококачественных размеченных данных, которые часто ограничены и подвержены значительному шуму аннотаций в реальных сценариях. Существующие методы несупервизионного RLVR, включая чистое минимизацию энтропии, склонны переобучаться на неверные метки и ограничивать критически важный сигнал ранжирования вознаграждения для оптимизации групповой политики относительно группы (GRPO). Для решения этих проблем и повышения устойчивости к шуму мы предлагаем новый двухэтапный метод оптимизации энтропии на уровне токенов для RLVR. Этот подход динамически направляет модель от этапа исследования к этапу эксплуатации во время обучения. В начальной фазе исследования максимизация энтропии на уровне токенов способствует разнообразному и стохастическому порождению выходных данных, выступая мощным регуляризатором, предотвращающим преждевременную конвергенцию к зашумленным меткам и обеспечивающим достаточную внутригрупповую вариацию, что позволяет получать более надежные градации вознаграждения.

Полный текст статьи пока не загружен.

Читать оригинал статьи