ResearchRubrics: База эталонных заданий и критериев оценки агентов глубокого исследования
Краткое содержание
arXiv:2511.07685v1 Тип объявления: новый Аннотация: Глубокое исследование (Deep Research — DR) представляет собой перспективное агентное приложение, использующее большие языковые модели (Large Language Models — LLM), чтобы отвечать на открытые запросы неопределённого характера. Для реализации DR необходима интеграция нескольких возможностей, включая многошаговое рассуждение, синтез информации из различных документов и создание обоснованных развёрнутых ответов. Оценка эффективности DR остаётся сложной задачей ввиду большой длины и разнообразия ответов, множества допустимых решений и зависимости от динамических источников информации. Мы представляем ResearchRubrics — стандартизированный бенчмарк для оценки качества DR, созданный усилиями свыше 2800 человеко-часов труда специалистов и включающий реалистичные, разнообразные тематические задания вместе с более чем 2500 детально проработанными экспертными оценочными шкалами для анализа фактологической обоснованности, корректности рассуждений и ясности изложения. Дополнительно мы предлагаем новую комплексную структуру классификации задач DR по трём осям: концептуальной широте, логической вложенности и уровню исследования. Помимо этого, нами разработаны протоколы оценки, основанные как на человеческом мнении, так и на моделях, позволяющие измерять соответствие заданным критериям оценки.
Полный текст статьи пока не загружен.