Оценка рассуждений больших языковых моделей (LLM) по упорядоченным процедурным этапам
Краткое содержание
arXiv:2511.04688v1 Тип объявления: кросс Аннотация: Рассуждение над процедурными последовательностями, где порядок шагов непосредственно влияет на результаты, является критически важной способностью больших языковых моделей (LLM). В данной работе мы исследуем задачу восстановления глобально упорядоченных последовательностей из перемешанных процедурных шагов, используя специально подобранный набор кулинарных рецептов — области, где правильная последовательность действий необходима для успешного выполнения задачи. Мы оцениваем несколько LLM-моделей в условиях нулевого выстрела (zero-shot) и нескольких примеров (few-shot) и представляем комплексную систему оценки, адаптированную из известных метрик ранжирования и выравнивания последовательностей. К ним относятся коэффициент Кендалла Тау, нормализованная самая длинная общая подпоследовательность (NLCS) и нормализованное расстояние редактирования (NED), которые отражают различные аспекты качества порядка. Наш анализ показывает, что производительность модели снижается с увеличением длины последовательности, что отражает дополнительную сложность длинных процедур. Мы также обнаружили, что большее смещение шагов во входных данных, соответствующее более сильному перемешиванию, отрицательно сказывается на результатах реконструкции.
Полный текст статьи пока не загружен.