GRAM-R$^2$: Самоконфигурируемые генеративные фундаментальные модели вознаграждения для обоснованного оценивания

2025-11-18 05:00:00

Краткое содержание

arXiv:2509.02492v3 Тип объявления: replace-cross Аннотация: Значительный прогресс в моделировании вознаграждений за последние годы был обусловлен сменой парадигмы: от разработки моделей для конкретных задач к созданию моделей-универсалов. Несмотря на эту тенденцию, разработка эффективных моделей вознаграждения остается фундаментальной проблемой: сохраняется сильная зависимость от размеченных данных о предпочтениях в больших объемах. Предварительное обучение на обширных неразмеченных данных предлагает перспективное направление, но существующие подходы не позволяют привить моделям вознаграждения способность к явным рассуждениям. Чтобы устранить этот разрыв, мы предлагаем метод самообучения, который использует неразмеченные данные для стимулирования рассуждений в моделях вознаграждения. На основе этого подхода мы разработали GRAM-R$^2$ — генеративную модель вознаграждения, которая обучается выдавать не только метки предпочтений, но и сопровождающие их обоснования. GRAM-R$^2$ может служить базовой моделью для рассуждений о вознаграждении и применяться к широкому спектру задач с минимальной дополнительной тонкой настройкой или без нее. Она может поддерживать последующие приложения.

Полный текст статьи пока не загружен.

Читать оригинал статьи