Исследование представлений предпочтений: многомерный метод оценки и анализа моделей вознаграждений
Краткое содержание
arXiv:2511.12464v1 Тип объявления: новый Аннотация: Ранее предложенные методы оценивают модели вознаграждений путем тестирования их на фиксированном наборе тестов парного ранжирования, однако они обычно не предоставляют сведений о производительности по каждому измерению предпочтений. В данной работе мы предлагаем решение проблемы оценки моделей вознаграждения посредством исследования представлений предпочтений. Для подтверждения эффективности данного метода оценки нами разработан многоразмерный эталонный тест для моделей вознаграждений (MRMBench) — коллекция из шести исследовательских задач, охватывающих различные измерения предпочтений. Мы разработали этот бенчмарк таким образом, чтобы поощрять создание моделей вознаграждений, лучше учитывающих предпочтения по различным направлениям. Дополнительно мы представляем метод анализа, называемый исследованием во время вывода (inference-time probing), который позволяет выявлять используемые измерения при прогнозировании вознаграждения и повышает интерпретируемость результатов. Проведя обширные эксперименты, мы обнаружили, что MRMBench демонстрирует сильную корреляцию с показателями согласованности больших языковых моделей (LLM), что делает его надежным ориентиром для разработки передовых...
Полный текст статьи пока не загружен.