ConInstruct: Оценка больших языковых моделей на выявление и разрешение конфликтов в инструкциях

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14342v1 Тип объявления: новое Аннотация: Следование инструкциям является критически важной способностью больших языковых моделей (LLM). В то время как существующие работы в основном сосредоточены на оценке того, насколько хорошо LLM следуют пользовательским инструкциям, они часто упускают из виду ситуации, когда инструкции содержат противоречивые ограничения — распространенное явление при сложных запросах. Поведение LLM в таких условиях остается недостаточно изученным. Чтобы восполнить этот пробел, мы представляем ConInstruct — бенчмарк, специально разработанный для оценки способности LLM выявлять и разрешать конфликты внутри пользовательских инструкций. Используя этот набор данных, мы оцениваем производительность обнаружения конфликтов у LLM и анализируем их поведение по разрешению конфликтов. Наши эксперименты выявили два ключевых вывода: (1) большинство проприетарных LLM демонстрируют сильные возможности по обнаружению конфликтов, тогда как среди открытых моделей только DeepSeek-R1 показывает аналогичную высокую производительность. DeepSeek-R1 и Claude-4.5-Sonnet достигают наивысших средних значений показателя F1 на уровне 91,5% и 87,3% соответственно

Полный текст статьи пока не загружен.

Читать оригинал статьи