За пределами точности: многомерная структура для оценки агентных систем искусственного интеллекта в корпоративных масштабах
Краткое содержание
arXiv:2511.14136v1 Тип объявления: новый Аннотация: Современные агентные бенчмарки искусственного интеллекта в основном оценивают точность выполнения задач, упуская из виду критически важные для предприятий требования, такие как экономичность, надежность и стабильность работы. Путем систематического анализа 12 основных бенчмарков и эмпирической оценки современных агентов мы выявили три фундаментальных ограничения: (1) отсутствие оценок с учетом затрат, что приводит к колебаниям стоимости в 50 раз при схожей точности; (2) недостаточная оценка надежности, где производительность агента снижается от 60% (однократный запуск) до 25% (последовательность из восьми запусков); (3) отсутствие многомерных метрик по безопасности, задержкам и соответствию политике. Мы предлагаем **CLEAR** (стоимость, латентность, эффективность, гарантия, надежность) — целостную систему оценки, специально разработанную для развертывания на предприятиях. Оценка шести ведущих агентов на 300 корпоративных задачах показывает, что оптимизация только по параметру точности делает агентов в 4,4–10,8 раза дороже, чем...
Полный текст статьи пока не загружен.