LoCoBench-Agent: Интерактивный бенчмарк для агентов на основе больших языковых моделей в программной инженерии с длинными контекстами
Краткое содержание
arXiv:2511.13998v1 Тип объявления: кросс Аннотация: По мере того как большие языковые модели (LLM) эволюционируют в сложные автономные агенты, способные выполнять задачи по разработке программного обеспечения, критически важным становится оценка их реальных возможностей. Хотя существующие бенчмарки, такие как LoCoBench~\cite{qiu2025locobench}, оценивают понимание кода с длинным контекстом, они сосредоточены на однократной оценке и не могут охватить интерактивный характер многоходовых взаимодействий, паттерны использования инструментов и адаптивное рассуждение, требуемые реальными агентами для кодирования. Мы представляем **LoCoBench-Agent**, всеобъемлющую оценочную платформу, специально разработанную для оценки агентов LLM в реалистичных рабочих процессах разработки программного обеспечения с длительным контекстом. Наш фреймворк расширяет 8000 сценариев из LoCoBench до интерактивных сред агента, что позволяет систематически оценивать многоходовые диалоги, эффективность использования инструментов, восстановление после ошибок и архитектурную согласованность в течение продолжительных сессий разработки. Также мы предлагаем методологию оценки с использованием 9 метрик
Полный текст статьи пока не загружен.