К стандарту агентной ИИ-метрики, значимой для предприятий: уроки оценки агентного ИИ на основе анализа свыше 5,5 миллиардов токенов

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.08042v1 Тип объявления: новый Аннотация: Внедрение агентных ИИ-систем предприятиями требует надежных методов оценки, отражающих реальные сценарии эксплуатации. Традиционные бенчмарки моделей больших языковых моделей страдают от загрязнения тренировочных данных и неспособности измерять агентские способности, такие как многошаговое использование инструментов и принятие решений в условиях неопределенности. Мы представляем индекс агентной эффективности Kamiwaza (KAMI) версии 0.1 — ориентированный на предприятия бенчмарк, который учитывает устойчивость к загрязнению данных и оценку агентских возможностей. Обрабатывая свыше 170 тысяч тестовых заданий для языковых моделей объемом более 5,5 миллиардов токенов через 35 различных конфигураций моделей, мы показываем, что традиционные рейтинги плохо предсказывают практическое агентное качество работы. Примечательно, что новейшие модели, такие как Llama 4 или Qwen 3, не всегда превосходят свои предыдущие поколения по задачам, актуальным для предприятий, что противоречит традиционным тенденциям рейтингования. Мы также приводим выводы относительно соотношения стоимости и производительности, специфичных поведенческих паттернов моделей и влияния...

Полный текст статьи пока не загружен.

Читать оригинал статьи