Непрерывное совместное обучение на основе зрения, языка и действий с семантико-физической согласованностью для поведенческого клонирования
Краткое содержание
arXiv:2511.14396v1 Тип объявления: кросс Аннотация: Языково-обусловленная манипуляция облегчает взаимодействие человека и робота посредством поведенческого клонирования (BC), которое обучает политики управления на основе демонстраций действий человеком и служит краеугольным камнем воплощенного искусственного интеллекта. Преодоление накопленных ошибок в последовательных решениях о действиях остается центральной задачей для повышения производительности BC. Существующие подходы смягчают проблему накопления ошибок с помощью увеличения объема данных, выразительных представлений или временной абстракции. Однако они страдают от физических разрывов непрерывности и семантико-физического рассогласования, что приводит к неточному копированию действий и прерывистому выполнению задач. В данной статье мы представляем метод Непрерывного совместного обучения зрения, языка и действия с учетом семантико-физической согласованности (CCoL) — новую архитектуру BC, обеспечивающую временную согласованность выполнения и точную привязку к семантике. Он генерирует надежные и плавные траектории исполнения действий за счет непрерывного совместного обучения по зрительным, языковым и проприоцептивным данным...
Полный текст статьи пока не загружен.