PragWorld: Эталон оценки локальной модели мира больших языковых моделей (LLM) при минимальных изменениях лингвистического характера и динамике диалога
Краткое содержание
arXiv:2511.13021v1 Тип объявления: кросс Аннотация: Реальные разговоры богаты прагматическими элементами, такими как упоминания сущностей, отсылки и импликатуры. Понимание таких нюансов является необходимым условием успешного естественного общения и часто требует построения локальной модели мира, которая кодирует эти элементы и отражает динамику изменения их состояний. Однако до сих пор недостаточно изучено, способны ли языковые модели (LM) создавать и поддерживать устойчивое внутреннее представление разговоров. В данной работе мы оцениваем способность LM кодировать и обновлять свою внутреннюю модель мира в диалоговых беседах и проверяем их гибкость при лингвистических изменениях. Для этого мы применяем семь минимальных изменений к разговорам, взятым из популярных наборов данных, и создаем два эталонных набора тестов, состоящих из вопросов типа да/нет. Мы оцениваем широкий спектр открытых и закрытых исходников LM и наблюдаем, что они испытывают трудности с поддержанием высокой точности. Наш анализ показывает, что
Полный текст статьи пока не загружен.