← Вернуться к списку

ContrastScore: К повышению качества, снижению предвзятости и увеличению эффективности оценочных метрик посредством контрастивного анализа

Краткое содержание

arXiv:2504.02106v2 Тип объявления: замена Аннотация: Автоматическая оценка качества генерируемого текста остается серьезной задачей. Традиционные метрики, основанные на эталонных примерах, показали относительно слабую корреляцию с оценками людей. В недавних исследованиях предлагается использовать большие языковые модели (LLM) в качестве исходных метрик оценки естественного языкового синтеза (NLG). Несмотря на перспективность подхода, метрики на основе LLM, особенно использующие небольшие модели, всё ещё недостаточно согласуются с человеческими суждениями. В данной работе мы представляем ContrastScore — контрастную метрику оценки, предназначенную для обеспечения более качественной, менее предвзятой и эффективной оценки генерируемого текста. Мы проверяем эффективность ContrastScore на двух задачах NLG: машинный перевод и суммирование. Экспериментальные результаты показывают, что ContrastScore стабильно демонстрирует более сильную корреляцию с человеческими оценками по сравнению как с базовыми подходами на одной модели, так и ансамблевыми методами. Примечательно, что версия ContrastScore, основанная на моделях Qwen размером 3 млрд и 0,5 млрд параметров, даже превосходит...

Полный текст статьи пока не загружен.