ПРОФ: Фреймворк оптимизации предпочтений вознаграждения на основе LLM для автономного обучения методом имитации
Краткое содержание
arXiv:2511.13765v1 Тип объявления: кросс Аннотация: Обучение имитации в автономном режиме (offline IL) позволяет обучать эффективные политики без необходимости явных аннотаций вознаграждений. Современные подходы пытаются оценить вознаграждения для немаркированных наборов данных с использованием небольшого набора демонстраций экспертов. Однако эти методы часто предполагают, что сходство траектории и демонстрации эксперта положительно коррелирует с вознаграждением, что упрощает структуру лежащего в основе вознаграждения. Мы предлагаем PROF — новую архитектуру, которая использует большие языковые модели (LLM) для генерации и улучшения исполняемых кодов функций вознаграждения на основе описаний естественного языка и одной экспертной траектории. Мы также предлагаем метод ранжирования предпочтений вознаграждений (Reward Preference Ranking, RPR) — новый подход к оценке качества функции вознаграждения и ее ранжированию без необходимости взаимодействия со средой или обучения методом подкрепления (RL). RPR рассчитывает доминирующие оценки функций вознаграждения, где более высокие баллы указывают на лучшее соответствие предпочтениям экспертов. Путем чередования...
Полный текст статьи пока не загружен.