Физические знания в передовых моделях: диагностическое исследование режимов отказов
Краткое содержание
arXiv:2510.06251v2 Тип анонса: замена Аннотация: Несмотря на впечатляющий прогресс современных моделей видения-языка (VLM), остается трудно определить причины успеха или неудачи этих моделей при выполнении сложных задач рассуждений. Традиционные бенчмарки оценивают лишь правильность ответов модели, не раскрывая причин успехов или неудач. В данной работе мы проводим анализ режимов отказов шести передовых VLM-моделей на трех физических бенчмарках — Physion, Physion++ и CLEVRER — путем введения специальных суб-тестов (для Physion и Physion++) и интеграции существующих категорий тестов (для CLEVRER). Это позволяет разложить производительность бенчмарков на отдельные проверяемые способности. Эти суб-теста позволяют изолированно исследовать восприятие (распознавание объектов, цветов и окклюзий) и понимание физики (предсказание движения и пространственное рассуждение), что даёт возможность проверить, обращают ли модели внимание на правильные сущности и динамику, лежащие в основе их ответов. Парадоксально, но мастерство выполнения суб-тестов слабо коррелирует с точностью результатов бенчмарка: модели часто отвечают правильно даже тогда, когда неправильно интерпретируют ключевые аспекты сцены.
Полный текст статьи пока не загружен.