За пределами бенчмарков: оценка больших языковых моделей с помощью антропоморфного и ориентированного на ценности дорожного картирования
Краткое содержание
arXiv:2508.18646v2 Тип объявления: замена Аннотация: Для больших языковых моделей (LLM) сохраняется разрыв между показателями на эталонных тестах и реальной полезностью в практическом применении. Современные рамки оценки остаются разрозненными, уделяя приоритетное внимание техническим метрикам при игнорировании комплексного анализа пригодности для развертывания. В данном обзоре предлагается антропоморфный подход к оценке с точки зрения человеческого интеллекта, вводя новую трехмерную таксономию: коэффициент интеллекта (IQ) — общий интеллект для базовой способности; эмоциональный коэффициент (EQ) — способность согласованности для взаимодействия на основе ценностей; профессиональный коэффициент (PQ) — профессиональная компетентность для специализированной квалификации. С целью практической значимости мы предлагаем ориентированную на ценность систему оценки (VQ), которая оценивает экономическую целесообразность, социальное воздействие, соответствие этическим нормам и экологическую устойчивость. Наша модульная архитектура интегрирует шесть компонентов вместе с дорожным картом реализации. На основании анализа более чем 200 бенчмарков мы выделяем ключевые проблемы, включающи...
Полный текст статьи пока не загружен.