← Вернуться к списку

VLA-R: Поиск визуальных, языковых действий для автономного вождения от начала до конца в открытом мире

Краткое содержание

arXiv:2511.12405v1 Тип объявления: новый Аннотация: Исследование открытых ситуаций в режиме от входных данных до конечного результата представляет собой перспективную, но сложную задачу ввиду необходимости сильных способностей к обобщению. В частности, автономное вождение автомобилей в неструктурированных внешних условиях часто сталкивается с условиями, незнакомыми во время обучения. В данной работе мы представляем систему поиска действий на основе зрения и языка (VLA-R) — фреймворк автономного вождения в открытом мире (OW-E2EAD), который объединяет восприятие открытого мира с новым парадигмой поиска визуальных действий. Мы используем замороженную модель зрение–язык для обнаружения объектов и сегментации в открытом мире, чтобы получать многоуровневые, управляемые подсказками и интерпретируемые признаки восприятия без тонкой настройки под конкретную область. Узкое место типа Q-Former агрегирует детализированные визуальные представления с визуально согласованными признаками языка, соединяя области восприятия и действий. Для изучения переносимых моделей поведения вождения мы предлагаем схему контрастного обучения видению и действиям.

Полный текст статьи пока не загружен.