Выявление предпочтений уровней факторов для улучшения согласования человека и модели

2025-11-18 05:00:00

Краткое содержание

arXiv:2410.06965v3 Тип объявления: замена Аннотация: Большие языковые модели (LLM) часто проявляют тенденции, отклоняющиеся от человеческих предпочтений, такие как предпочтение определённых стилей письма или создание чрезмерно многословных выходов. Хотя выявление факторов, вызывающих эти несоответствия, критически важно для улучшения моделей, существующие методы оценки затрудняют решение этой проблемы из-за своей зависимости от грубых сравнений и отсутствия интерпретируемости. Для решения данной проблемы мы представляем PROFILE — автоматизированный фреймворк для выявления и измерения факторной согласованности предпочтений между людьми и большими языковыми моделями. С помощью PROFILE мы исследуем согласованность предпочтений по трём ключевым задачам: суммирование текста, выполнение инструкций и вопрос-ответ на основе документов. Мы обнаруживаем значительное расхождение: хотя большие языковые модели демонстрируют слабую факторную согласованность с человеческими предпочтениями при генерации текстов, они показывают сильную согласованность в дискриминационных задачах. Мы показываем, каким образом использование выявленного разрыва между генерацией и дискриминацией может способствовать улучшению согласования больших языковых моделей через...

Полный текст статьи пока не загружен.

Читать оригинал статьи