Diff-XYZ: Бенчмарк для оценки понимания различий
Краткое содержание
arXiv:2510.12487v2 Тип анонса: replace-cross Аннотация: Надежная обработка код-диффов является центральной задачей для агентов, которые редактируют и рефакторят репозитории в больших масштабах. Мы представляем Diff-XYZ, компактный бенчмарк для понимания код-диффов с тремя контролируемыми задачами: применение (старый код + дифф → новый код), обратное применение (новый код − дифф → старый код) и генерация диффа (новый код − старый код → дифф). Экземпляры в бенчмарке представляют собой тройки ⟨старый код, новый код, дифф⟩, взятые из реальных коммитов в CommitPackFT, снабженные автоматическими метриками и четким протоколом оценки. Мы используем бенчмарк для целенаправленного эмпирического исследования формата unified diff и проводим кросс-форматное сравнение различных представлений диффов. Наши результаты показывают, что в зависимости от варианта использования и размера модели следует использовать разные форматы. Например, представление диффов в формате поиска-и-замены показывает наилучшие результаты для более крупных моделей в большинстве задач, в то
Полный текст статьи пока не загружен.