PIGEON: Навигация объектов, управляемая VLM через выбор точек интереса
Краткое содержание
arXiv:2511.13207v1 Тип объявления: кросс Аннотация: Навигация до заданного объекта в неизвестной среде является фундаментальной, но сложной задачей для воплощенного интеллекта. Однако современные методы испытывают трудности с балансировкой частоты принятия решений и уровня интеллектуальности, что приводит к решениям, лишенным дальновидности или характеризующимся прерывистыми действиями. В данной работе мы предлагаем метод PIGEON: ориентированную на точки интереса навигационную стратегию поиска объектов с использованием модели визуального языка (VLM). Во время исследования среды поддерживается легкая семантически согласованная память снимков, используемая в качестве семантического ввода для стратегии исследования. Мы применяем крупную модель визуального языка (VLM), названную PIGEON-VL, чтобы выбирать точки интереса (PoI), сформированные во время исследования, после чего задействуем планировщик нижнего уровня для вывода действий, увеличивая частоту принятия решений. Дополнительно этот подход, основанный на точках интереса, позволяет формировать данные для обучения методом подкрепления с проверяемым вознаграждением (Reinforcement Learning with Verifiable Reward — RLVR), подходящие для симуляторов. Эксперименты на классических эталонных тестах навигации объектов демонстрируют...
Полный текст статьи пока не загружен.