← Вернуться к списку

Осторожнее с слепыми зонами: Оценочная структура на уровне фокуса для обзоров больших языковых моделей

Краткое содержание

arXiv:2502.17086v4 Тип объявления: замена Аннотация: Рецензирование коллегами является основой научного прогресса, однако оно всё больше испытывает трудности из-за нехватки рецензентов и возрастающей нагрузки. Большие языковые модели (LLM) уже способны автоматически составлять обзоры статей, однако вопрос доверия к таким обзорам требует систематической оценки. Исследователи оценивали обзоры, созданные LLM-моделями, либо на поверхностном уровне (например, метрики BLEU и ROUGE), либо на содержательном уровне (например, конкретность и фактическая точность). Тем не менее остаётся неясным, уделяют ли обзоры, генерируемые LLM, внимание тем же критически важным аспектам, которыми руководствуются эксперты-человеки — достоинствам и недостаткам, определяющим итоговое решение принять или отклонить статью. Мы предлагаем фокальную систему оценки, которая формализует фокус как нормализованное распределение внимания по заранее определённым аспектам в отзывах на научные работы. Основываясь на этой методике, мы разработали автоматический конвейер оценки уровня фокуса, основанный на двух наборах аспектов: целевых (например, постановка проблемы, методика и эксперимент)...

Полный текст статьи пока не загружен.