ВзятьAD: Предпочтительная пост-оптимизация для сквозного автономного вождения с данными перехвата управления экспертом
Краткое содержание
arXiv:2512.17370v1 Тип объявления: cross Аннотация: Существующие методы автономного вождения от конца до конца обычно основываются на имитационном обучении (IL), но сталкиваются с ключевой проблемой: несоответствием между обучением в открытой петле и развертыванием в замкнутой петле. Это несоответствие часто приводит к перехвату управления инициированному водителем и отключению системы во время выполнения в замкнутой петле. Как использовать эти данные о перехвате управления от эксперта из сценариев отключения и эффективно расширить возможности политики IL, представляет собой ценный, но неизученный вызов. В этой статье мы предлагаем TakeAD, новую пост-оптимизационную框架 на основе предпочтений, которая дообучает предварительно обученную политику IL с использованием этих данных об отключениях для улучшения производительности вождения в замкнутой петле. Сначала мы разрабатываем эффективный конвейер сбора данных о перехвате управления от эксперта, вдохновленный механизмами перехвата управления человеком в реальных системах автономного вождения. Затем эта пост-оптимизационная框架 объединяет итеративное агрегирование наборов данных (DAgger) для имитационного обучения с Dire
Полный текст статьи пока не загружен.