Полу-контролируемая оптимизация предпочтений с ограниченной обратной связью

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2511.00040v2 Тип объявления: замена Аннотация: Область оптимизации предпочтений внесла выдающийся вклад в согласование языковых моделей с человеческими предпочтениями. Несмотря на эти достижения, современные методы по-прежнему сильно зависят от больших объемов парных (размеченных) данных обратной связи, что приводит к значительным затратам ресурсов. Для решения этих проблем мы изучаем задачу полусупервизированной оптимизации предпочтений (SSPO), в которой идея заключается в одновременном обучении как на небольшом количестве парных меток предпочтений, так и на большом пуле непарных сэмплов. Наш ключевой теоретический доказательство существования оптимального порога награды, способного с высокой вероятностью разделять выигрышные и проигрышные ответы, что позволяет выполнить принципиальное псевдомаркирование непарных данных. Используя эти псевдометки, SSPO эффективно переносит латентные предпочтения из крупномасштабных непарных данных, тем самым поддерживая согласование с человеком при резком снижении затрат на сбор данных. Обширные и...

Полный текст статьи пока не загружен.

Читать оригинал статьи