← Вернуться к списку

Побуждение-управляемая адаптация домена для автономного вождения от начала до конца посредством обучения с подкреплением в контексте

Краткое содержание

arXiv:2511.12755v1 Тип анонса: cross Аннотация: Несмотря на значительный прогресс и успехи в области автономного вождения, многие сквозные системы по-прежнему испытывают трудности с адаптацией к домену (Domain Adaptation, DA), например, при переносе политики, обученной в ясную погоду, на условия неблагоприятных погодных явлений. Типичные стратегии DA в литературе включают сбор дополнительных данных в целевом домене или переобучение модели, либо и то, и другое. Оба этих подхода быстро становятся непрактичными по мере увеличения масштаба и сложности вождения. Эти ограничения стимулировали исследования в области few-shot и zero-shot DA на этапе вывода с использованием промптов, задействующих LLM и VLM. Эти методы работают за счет добавления в промпт нескольких траекторий «состояние-действие» во время вывода (аналогично обучению в контексте). Однако у такого подхода есть два ограничения: (i) методы DA на основе промптов в настоящее время ограничены задачами восприятия, такими как детекция и сегментация, и (ii) они требуют наличия экспертных few-shot данных. В данной работе мы представляем

Полный текст статьи пока не загружен.