Эффективность языковой модели (SWE-fficiency): способны ли языковые модели оптимизировать реальные репозитории при реальных рабочих нагрузках?

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.06090v2 Тип объявления: замена-перекрёстная Аннотация: Оптимизация производительности крупных репозиториев программного обеспечения требует знаний в области анализа исходного кода и инженерии ПО (SWE), чтобы сократить время выполнения программы, сохранив её корректность. Однако большинство бенчмарков акцентируют внимание скорее на том, какие проблемы нужно исправить, нежели на том, как именно исправлять код. Мы представляем SWE-fficiency — набор тестов для оценки оптимизации производительности на уровне репозитория на реальных рабочих нагрузках. Наш комплект включает 498 заданий по девяти широко используемым хранилищам данных науки о данных, машинного обучения и высокопроизводительных вычислений (например, numpy, pandas, scipy). Для каждого задания агенту предоставляется полный исходный код и медленная рабочая нагрузка, после чего от агента требуется проанализировать семантику кода, выявить узкие места и соответствующие тесты, а также создать патч, который обеспечит ускорение работы, сопоставимое или превосходящее результаты экспертов, при условии успешного прохождения тех же юнит-тестов. Чтобы обеспечить такую оценку процесса исправления, наша автоматизированная система собирает запросы на включение изменений (pull request'ы) с GitHub, улучшающие производительность, используя фильтрацию ключевых слов, статический анализ, инструменты покрытия и выполнение виртуальных сред.

Полный текст статьи пока не загружен.

Читать оригинал статьи