Понимают ли большие языковые модели (LLM) хронологию?

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14214v1 Тип объявления: новое Аннотация: Большие языковые модели (LLM) все чаще используются в финансах и экономике, где попытки на основе подсказок избежать предвзятости прогнозирования неявно предполагают, что модели понимают хронологию событий. Мы проверяем этот фундаментальный вопрос с помощью серии задач по хронологическому упорядочиванию фактов различной сложности, которые модель уже знает из предварительного обучения. Наши задачи охватывают (1) хронологическое упорядочивание, (2) условную сортировку (фильтрация, затем упорядочивание) и (3) обнаружение анахронизмов. Мы оцениваем производительность моделей GPT-4.1, Claude-3.7 Sonnet, как с расширенным мышлением (Extended Thinking — ET), так и без него, а также GPT-5 при различных настройках усилий для рассуждений. Во всех моделях показатель точного совпадения резко снижается по мере увеличения длины последовательностей, даже несмотря на то, что коэффициенты ранговой корреляции остаются высокими, поскольку LLM в основном сохраняют локальную последовательность, но испытывают трудности с поддержанием единого глобально согласованного временного ряда. В случае условной сортировки большинство ошибок возникает на этапе фильтрации, а не упорядочивания; однако GPT-5 и Claude-3.7 Sonnet с расширенным

Полный текст статьи пока не загружен.

Читать оригинал статьи