CLINB: Климатический интеллектуальный бенчмарк для фундаментальных моделей
Краткое содержание
arXiv:2511.11597v1 Тип объявления: кросс Аннотация: Оценка способности больших языковых моделей (LLM) обрабатывать сложный специализированный контент остается критически важной задачей. Мы рассматриваем этот вопрос через призму изменения климата путем введения набора тестов CLINB, который оценивает модели на открытых, обоснованных, мультимодальных заданиях по вопросам с четкими требованиями к качеству знаний и доказательной поддержке. CLINB основывается на наборе реальных вопросов пользователей и оценочных критериях, составленных ведущими климатологами. Мы реализуем и проверяем процесс оценки, основанный на моделях, и тестируем несколько передовых моделей. Наши результаты выявляют существенную дихотомию. Передовые модели демонстрируют выдающиеся возможности синтеза знаний, часто проявляя уровень понимания и качество представления, сопоставимые с уровнем докторской степени. Они превосходят гибридные ответы, подготовленные экспертами предметной области совместно со слабыми моделями. Однако эта производительность компенсируется недостаточной обоснованностью. Качество доказательств варьируется, причем значительная доля случаев сопровождается значительными иллюзиями.
Полный текст статьи пока не загружен.