← Вернуться к списку
ClawBench: лучшая ИИ-агента смогла успешно завершить только 33% реальных повседневных задач
Краткое содержание
Клаубенч — бенчмарк, который проверяет, могут ли ИИ-агенты выполнять настоящие повседневные задачи в интернете: забронировать рейс, откликнуться на вакансию, оформить заказ. Результаты показали, что даже самая мощная модель — Claude Sonnet 4.6 — справляется только с 33% задач. Это резко отличается от результатов на традиционных бенчмарках, где ИИ-агенты набирают 65–75%. Код инфраструктуры оценки, задания и пайплайн […]Источник: Клаубенч: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач
Полный текст статьи пока не загружен.