ATLAS: Высокосложный междисциплинарный эталон для передовой научной аргументации
Краткое содержание
arXiv:2511.14366v1 Тип объявления: новый Аннотация: Быстрый прогресс больших языковых моделей (LLM) привел к насыщению производительности на многих устоявшихся эталонных тестах, что ставит под сомнение их способность различать передовые модели. В то же время существующие сложные бенчмарки часто страдают от узкой дисциплинарной направленности, упрощенных форматов ответов и уязвимости к загрязнению данных, создавая разрыв в достоверности по сравнению с реальными научными исследованиями. Для решения этих проблем мы представляем ATLAS (тестовая среда AGI-ориентированная для логического применения в науке) — масштабный, сложный и междисциплинарный оценочный набор из примерно 800 оригинальных задач. Разработанный экспертами предметных областей уровня PhD и выше, ATLAS охватывает семь основных научных дисциплин: математику, физику, химию, биологию, информатику, науки о Земле и материаловедение. Его ключевые особенности включают: (1) высокую оригинальность и устойчивость к загрязнению, все вопросы созданы заново или существенно переработаны;
Полный текст статьи пока не загружен.