Что важно учитывать в работе с данными для ДП (Должностное лицо по защите данных)?
Краткое содержание
arXiv:2508.18312v3 Тип объявления: замена-перекрёстная публикация Аннотация: Прямая оптимизация предпочтений (Direct Preference Optimization — DPO) зарекомендовала себя как простой и эффективный подход к согласованию больших языковых моделей (LLM) с человеческими предпочтениями, обходя необходимость использования модели вознаграждений. Несмотря на растущее распространение данного метода, остаётся открытым фундаментальный вопрос: какие характеристики данных предпочтений наиболее критичны для производительности DPO? В данной работе мы представляем систематическое исследование влияния распределения данных предпочтений на эффективность DPO, рассматривая этот аспект как теоретически, так и эмпирически. Мы показываем, что качество выбранных ответов играет доминирующую роль в оптимизации целевой функции DPO, тогда как качество отвергнутых ответов может оказывать относительно ограниченное влияние. Наш теоретический анализ характеризует оптимальное распределение ответов в рамках DPO и показывает, каким образом контрастность между ответами помогает главным образом путём улучшения качества выборки положительных примеров. Далее мы изучаем онлайновый вариант DPO и демонстрируем, что он эффективно сводится к контролируемой тонкой настройке.
Полный текст статьи пока не загружен.