Вообразите в космосе: исследование границ пространственного интеллекта и эффективности рассуждений в моделях видения языка

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.13782v1 Тип объявления: новое Аннотация: Большие языковые модели (LLM) и визуальные языковые модели (VLM), такие как DeepSeek R1, OpenAI o3 и Gemini 2.5 Pro, продемонстрировали выдающиеся способности к рассуждению в области логического вывода, решения задач и принятия решений. Однако пространственное мышление — фундаментальный компонент человеческого познания, включающий мысленное вращение объектов, навигацию и понимание пространственных отношений — остается серьезной проблемой для современных продвинутых моделей VLM. Мы предполагаем, что воображение, внутреннее моделирование пространственного состояния, является доминирующим механизмом рассуждений внутри пространственной модели мира. Для проверки этой гипотезы и систематического исследования механизмов пространственного мышления текущих моделей VLM мы представляем SpatiaLite — полностью синтетический бенчмарк, который одновременно измеряет точность и эффективность пространственного мышления. Комплексные эксперименты выявили три ключевых результата. Во-первых, современные продвинутые модели VLM преимущественно полагаются на лингвистические представления при выполнении рассуждений и воображения...

Полный текст статьи пока не загружен.

Читать оригинал статьи