Готов ли ваш ВЛМ к полету в небе? Комплексный бенчмарк пространственного интеллекта для навигации БПЛА
Краткое содержание
arXiv:2511.13269v1 Тип объявления: новый Аннотация: Модели видения и языка (VLM), используя свои мощные возможности визуального восприятия и рассуждений, получили широкое распространение в задачах беспилотных летательных аппаратов (БПЛА). Однако пространственный интеллект существующих VLM-моделей в сценариях БПЛА остается практически неизученным, вызывая сомнения относительно их эффективности в навигации и интерпретации динамических сред. Для устранения данного пробела мы представляем SpatialSky-Bench — комплексный бенчмарк, специально разработанный для оценки возможностей пространственного интеллекта моделей VLM в навигационных задачах БПЛА. Наш бенчмарк включает две категории — восприятие окружающей среды и понимание сцены, разделенные на 13 подкатегорий, среди которых выделение ограничивающих рамок, цвет, расстояние, высота и анализ безопасности посадки и другие. Подробная оценка различных популярных открытых и закрытых VLM-решений выявила неудовлетворительные результаты в сложных сценах навигации БПЛА, подчеркивая значительные пробелы в их возможностях.
Полный текст статьи пока не загружен.