← Вернуться к списку

VisAidMath: Оценка визуализированного математического рассуждения

Краткое содержание

arXiv:2410.22995v2 Тип объявления: замена-перекрёстная публикация Аннотация: Отличительной чертой продвинутого искусственного интеллекта является способность переходить от пассивного визуального восприятия к стратегическому изменению визуальной информации для облегчения сложного рассуждения. Тем не менее, эта передовая возможность остается критически неразвитой в современных больших мультимодальных моделях (LMM). Недостаток часто маскируется оценочными метриками, которые отдают приоритет точности конечного ответа, создавая иллюзию компетентности там, где подлинное рассуждение отсутствует. Используя область геометрического решения задач как точный инструмент, мы исследуем эту проблему через задачи, требующие построения вспомогательных визуализаций. С этой целью мы представляем **VisAidMath** — сложный эталонный тест и нашу новую трехуровневую воронкообразную систему оценки. Эта система выходит за рамки простой точности (ACCU), чтобы проанализировать генерацию достоверных визуальных средств помощи (PVA) и обоснованность последующих шагов рассуждений (SPRS). Наши обширные эксперименты на современном уровне...

Полный текст статьи пока не загружен.