Оценка производительности больших языковых моделей на задаче генерации целочисленных последовательностей

2025-11-11 05:00:00

Краткое содержание

arXiv:2411.04372v3 Тип анонса: замена Аннотация: Мы представляем новый бенчмарк, предназначенный для строгого тестирования возможностей больших языковых моделей (LLM) в области математического рассуждения и синтеза алгоритмического кода. Бенчмарк включает задачи генерации целочисленных последовательностей, взятые из Онлайн-энциклопедии целочисленных последовательностей (OEIS). Эти задачи проверяют способность LLM корректно и эффективно создавать код на Python для вычисления указанных последовательностей без использования таблиц поиска. Наше всестороннее тестирование охватывает ведущие модели от компаний OpenAI (включая специализированные серии o, ориентированные на решение задач рассуждений), Anthropic, Meta и Google, применяя специально подобранный набор из 1000 последовательностей OEIS, классифицированных как «простые» и «сложные». Половина этих последовательностей — классические последовательности ранних лет существования OEIS, другая половина была недавно добавлена, чтобы избежать совпадений с тренировочными данными моделей. Для предотвращения эксплуатации моделями запомнившихся значений последовательностей мы вводим автоматизированный механизм обнаружения мошенничества...

Полный текст статьи пока не загружен.

Читать оригинал статьи