LongReason: Синтетический эталонный тест для рассуждений с длинным контекстом посредством расширения контекста

2025-11-19 05:00:00

Краткое содержание

arXiv:2501.15089v3 Тип объявления: замена Аннотация: Большие языковые модели (LLM) продемонстрировали значительный прогресс в понимании длинных контекстных входных данных. Однако эталонные тесты для оценки способностей LLM к рассуждениям с длинным контекстом отстают от этого темпа. Существующие бенчмарки часто сосредоточены на узком диапазоне задач или тех, которые не требуют сложного рассуждения. Чтобы восполнить этот пробел и обеспечить более всестороннюю оценку возможностей современных LLM по обработке длинного контекста, мы предлагаем новый синтетический тестовый набор под названием LongReason, который создается путем синтеза вопросов на рассуждение с длинным контекстом из разнообразного набора коротких контекстных вопросов через расширение контекста. LongReason состоит из 794 вопросов с несколькими вариантами ответов, охватывающих различные схемы рассуждений в трех категориях задач: понимание прочитанного, логическое умозаключение и математические текстовые задачи. Мы оцениваем 21 языковую модель на основе LongReason, что показывает значительное снижение производительности большинства моделей при увеличении длины контекста...

Полный текст статьи пока не загружен.

Читать оригинал статьи