DCRM: Эвристика для оценки качества пар ответов при оптимизации предпочтений
Краткое содержание
arXiv:2506.14157v1 Тип объявления: cross Аннотация: В последних исследованиях предпринимались попытки связать эффективность оптимизации предпочтений (PO) с лежащими в основе наборами данных о предпочтениях. В этой работе мы наблюдаем, что различия между предпочитаемым ответом $y^+$ и отвергаемым ответом $y^-$ влияют на то, что МОМ (большие языковые модели) могут изучить, и эти различия могут не совпадать с желаемыми для обучения. Поэтому мы используем дистанцию и зазор вознаграждения для количественной оценки этих различий и объединяем их, чтобы получить Калиброванный по Дистанции Зазор Вознаграждения (DCRM) — метрику, которая измеряет качество пары ответов для PO. Интуитивно, DCRM способствует минимизации шумовых различий и максимизации желаемых различий. На основе этого мы изучаем 3 типа широко используемых наборов данных о предпочтениях, классифицированных по двум осям: источник ответов и функция разметки предпочтений. Мы устанавливаем общую корреляцию между более высоким значением DCRM обучающей выборки и лучшим результатом обучения. Вдохновленные этим, мы предлагаем метод парного отбора best-of-$N^2$
Полный текст статьи пока не загружен.