Комплексная оценка мультимодальных больших языковых моделей (LLM) по пространственному интеллекту
Краткое содержание
arXiv:2508.13142v3 Тип объявления: замена-перекрёстная публикация Аннотация: В последние годы мультимодальные модели добились значительных успехов. Тем не менее, они продолжают демонстрировать заметные ограничения в пространственном понимании и рассуждениях — именно эта способность является основой общего искусственного интеллекта в физическом мире. С недавним выпуском GPT-5, который предположительно является самой мощной моделью ИИ на сегодняшний день, настало время оценить, насколько далеко продвинулись ведущие модели (GPT, Gemini, Grok, Seed, Qwen и Intern) на пути к пространственному интеллекту. Мы предлагаем EASI — комплексную методику оценки мультимодальных больших языковых моделей (LLM) на предмет пространственного интеллекта. EASI предлагает всестороннюю таксономию пространственных задач, объединяя существующие бенчмарки и стандартизованный протокол справедливого тестирования современных проприетарных и открытых моделей. В данном отчёте мы проводим исследование по восьми ключевым бенчмаркам, затратив свыше десяти миллиардов токенов суммарно. Наш эмпирический анализ показывает, что (1) GPT-5 демонстрирует
Полный текст статьи пока не загружен.