← Вернуться к списку

GeoX-Bench: Оценка возможностей крупномасштабных мультимодальных моделей по кросс-видовому геопозиционированию и оценке позы

Краткое содержание

arXiv:2511.13259v1 Тип объявления: новый Аннотация: Большие мультимодальные модели (LMM) продемонстрировали выдающиеся возможности в широком спектре задач, однако их знания и способности в областях кросс-видовой геолокации и оценки поз остаются неизученными, несмотря на потенциальную пользу для навигации, автономного вождения, робототехники открытого пространства и пр. Для устранения данного пробела мы представляем **GeoX-Bench** — комплексный бенчмарк, предназначенный для изучения и оценки возможностей LMM в области кросс-визионной гео-локации и оценивания позы. В частности, GeoX-Bench содержит 10 859 пар панорамных спутниковых изображений, охватывающих 128 городов в 49 странах, вместе с соответствующими 755 976 парами вопрос-ответ (QA). Из них 42 900 QA-пар предназначены для тестирования, остальные же служат для повышения способностей LMM. Основываясь на GeoX-Bench, мы оцениваем возможности 25 передовых LMM в задаче кросс-визуальной геолокации.

Полный текст статьи пока не загружен.