LongReason: Синтетический эталонный тест для рассуждений с длинным контекстом посредством расширения контекста
Краткое содержание
arXiv:2501.15089v3 Тип объявления: замена Аннотация: Большие языковые модели (LLM) продемонстрировали значительный прогресс в понимании длинных контекстных входных данных. Однако эталонные тесты для оценки способностей LLM к рассуждениям с длинным контекстом отстают от этого темпа. Существующие бенчмарки часто сосредоточены на узком диапазоне задач или тех, которые не требуют сложного рассуждения. Чтобы восполнить этот пробел и обеспечить более всестороннюю оценку возможностей современных LLM по обработке длинного контекста, мы предлагаем новый синтетический тестовый набор под названием LongReason, который создается путем синтеза вопросов на рассуждение с длинным контекстом из разнообразного набора коротких контекстных вопросов через расширение контекста. LongReason состоит из 794 вопросов с несколькими вариантами ответов, охватывающих различные схемы рассуждений в трех категориях задач: понимание прочитанного, логическое умозаключение и математические текстовые задачи. Мы оцениваем 21 языковую модель на основе LongReason, что показывает значительное снижение производительности большинства моделей при увеличении длины контекста...
Полный текст статьи пока не загружен.