ImagineNav++: Предоставление Визуально-языковым Моделям Роли Объектно-ориентированного Навигатора через Воображение Сцен

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2512.17435v1 Тип объявления: новое Аннотация: Визуальная навигация является фундаментальной способностью для автономных роботов бытового обслуживания, позволяя выполнять задачи с длинным горизонтом, такие как поиск объектов. Хотя недавние методы использовали большие языковые модели (LLM) для включения здравого смысла и повышения эффективности исследования, их планирование остается ограниченным текстовыми представлениями, которые не могут адекватно захватывать пространственное заполнение или геометрию сцены — критические факторы для принятия решений при навигации. Мы исследуем, могут ли модели языка и зрения (VLM) достигать визуальной навигации без карт, используя только встроенные потоки RGB/RGB-D, раскрывая их потенциал для пространственного восприятия и планирования. Мы достигаем этого с помощью фреймворка навигации с воображением, ImagineNav++, который воображает будущие изображения наблюдений из кандидатных видов робота и преобразует планирование навигации в простую задачу выбора изображения лучшего вида для VLM. Сначала модуль воображения будущего вида перегоняет предпочтения человека при навигации...

Полный текст статьи пока не загружен.

Читать оригинал статьи