EL3DD: Расширенная Латентная 3D-Диффузия для Многозадачного Манипулирования с Языковым Условием

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13312v1 Тип объявления: cross Аннотация: Способность действовать в человеческой среде является ключевой для роботов общего назначения, что требует надежного понимания естественного языка и его применения к физическим задачам. Данная работа направлена на использование возможностей диффузионных моделей в рамках визомоторной политики, которая объединяет визуальные и текстовые данные для генерации точных траекторий движения робота. Используя референтные демонстрации в процессе обучения, модель учится выполнять манипуляционные задачи, заданные с помощью текстовых команд в непосредственном окружении робота. Предлагаемое исследование нацелено на расширение существующей модели за счет использования улучшенных эмбеддингов и адаптации методов из диффузионных моделей для генерации изображений. Мы оцениваем наши методы на наборе данных CALVIN, демонстрируя улучшенную производительность на различных манипуляционных задачах и повышенный уровень успешного выполнения длинных горизонтов, когда несколько задач выполняются последовательно. Наш подход подтверждает полезность диффузионных моделей.

Полный текст статьи пока не загружен.

Читать оригинал статьи